#qlora — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #qlora, aggregated by home.social.
-
[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.
-
[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.
-
[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.
-
[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.
-
[Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал
https://habr.com/ru/companies/otus/articles/1026700/
#LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA
-
[Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал
https://habr.com/ru/companies/otus/articles/1026700/
#LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA
-
[Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал
https://habr.com/ru/companies/otus/articles/1026700/
#LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA
-
[Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал
https://habr.com/ru/companies/otus/articles/1026700/
#LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA
-
Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей
В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.
https://habr.com/ru/articles/1026516/
#искусственный_интеллект #llm #машинное_обучение #qlora #finetuning #qwen #образование #russian_ai
-
Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей
В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.
https://habr.com/ru/articles/1026516/
#искусственный_интеллект #llm #машинное_обучение #qlora #finetuning #qwen #образование #russian_ai
-
Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей
В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.
https://habr.com/ru/articles/1026516/
#искусственный_интеллект #llm #машинное_обучение #qlora #finetuning #qwen #образование #russian_ai
-
Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей
В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.
https://habr.com/ru/articles/1026516/
#искусственный_интеллект #llm #машинное_обучение #qlora #finetuning #qwen #образование #russian_ai
-
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM
В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»
https://habr.com/ru/articles/1002298/
#LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели
-
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...
#LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые
Origin | Interest | Match -
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...
#LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые
Origin | Interest | Match -
🔧 Đang tinh chỉnh LLaMA 3.1 8B bằng QLoRA, muốn mô hình trò chuyện song ngữ (ES‑EN) có cá tính, hài hước, không dịch máy. Cần lời khuyên: tỉ lệ dữ liệu tiếng Anh 60‑70% có hợp? Dùng “mirror examples” có nên? “Thinking in English, trả lời tiếng Tây Ban Nha” là thực hay chỉ là truyền thuyết? Tips cấu trúc Alpaca‑style? Các bạn đã thành công với LoRA song ngữ chia sẻ nhé! #AI #LLM #QLoRA #Bilingual #CôngNghệ #NgônNgữ
https://www.reddit.com/r/LocalLLaMA/comments/1qijpx3/qlora_finetuning_should_i_t
-
Эксперимент по подстройке Gemma 3 для вызова процедур
Практический опыт тонкой настройки текстовой генерации для модели Gemma 3 с использованием QLoRA на видеокарте RTX 4090 (24 GB).
-
Fine-tuning Gemma 3 1B với QLoRA 4-bit cho kết quả đầu ra vô nghĩa (ví dụ: MachineMachineMachine...). Đã thử mọi cách: thay đổi rank, định dạng chat, token EOS, bf16 — không hiệu quả. **Giải pháp**: Loại bỏ hoàn toàn lượng tử hóa, dùng float16 cho kết quả tốt. Câu hỏi: Có ai thành công với Gemma 3 1B + QLoRA trên HuggingFace/TRL? Model 1B có quá nhỏ để dùng QLoRA? #Gemma3 #QLoRA #FineTuning #AI #Gemma #HuggingFace #Lora #FineTuning #AI #MachineLearning #TríTuệNhânTạo #HọcMáy #TinhChỉnhMôHình
ht
-
QTune — open-source решение для быстрого файн-тюнинга моделей
Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.
https://habr.com/ru/articles/937866/
#ИИ #Машинное_обучение #ML #AI #finetuning #python #qlora #lora
-
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
-
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
-
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
-
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
-
Квантизация позволяет запускать Llama 3.2 на мобилках
Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате BF16. Как вообще получилось, что Llama работает на мобильных процессорах, ведь для ее запуска нужен определенный программный стек, чаще всего библиотека Pytorch и CUDA на операционной системе Linux? Дело в том, что Meta* ( признана в России экстремистской организацией) используют ExecuTorch - это фреймворк, который является частью Pytorch-платформы и предназначен для запуска Pytorch-программ на мобильных девайсах. ExecuTorch поддерживается фреймворком Llama Stack для запуска моделей Llama, а именно легковесных Llama 3.2 1B и 3B , на iOS и Android. Для разработки мобильных приложений под эти платформы Llama Stack предоставляет клиентский SDK на Swift для iOS и Kotlin для Android, оба написаны под ExecuTorch бэкенд. Какого именно уровня производительности удалось добиться новым квантованным моделям Llama? В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama. Сразу стоит отметить важную деталь: речь идет не об обычной post-training квантизации , когда вы берете веса в FP16 и квантуете в GGUF или GPTQ. Хотя такие веса, безусловно, имеют практическое применение для множества задач, они страдают падением качества, это хорошо заметно на бенчмарках ниже.
https://habr.com/ru/articles/856244/
#llama #qlora #llama_32 #генеративные_модели #generative_models #нейронные_сети
-
[Перевод] Что такое supervised fine-tuning?
Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.
https://habr.com/ru/articles/829318/
#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка
-
[Перевод] Что такое supervised fine-tuning?
Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.
https://habr.com/ru/articles/829318/
#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка
-
[Перевод] Что такое supervised fine-tuning?
Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.
https://habr.com/ru/articles/829318/
#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка
-
Looking for an #LLM #finetuning #qlora #mistral primer article and/or links to an active forum where it is discussed.
Any interesting finds lately? Shot-in-the-dark pinging @simon 🤞
-
While we wait for better #AI hardware, or better Transformer models, we have #QLoRa: https://arxiv.org/abs/2305.14314 which can let you train a large #LLM with less memory #deeplearning #machinelearning