#квантование — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #квантование, aggregated by home.social.
-
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.
https://habr.com/ru/articles/1035862/
#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU
-
Как возникает реальность? Новая математическая модель. Сравнение с другими теориями
В квантовой механике есть странный факт, к которому все привыкли, но который редко проговаривается до конца. Система описывается как набор возможностей — волновой функцией. Но в результате измерения мы всегда получаем один конкретный результат . Не распределение, не «облако вероятностей», а: — щелчок детектора — точка на экране — конкретное значение Откуда вообще берётся этот переход? Почему из непрерывной структуры возможностей возникает дискретная реальность?
https://habr.com/ru/articles/1025424/
#физика #квантовая_физика #реальность #объективность #философия #квантование #измерение #суперпозиция #интерференция #феномены
-
Если Вселенная — симуляция, то квантовая механика — следствие
Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?
https://habr.com/ru/articles/1025222/
#гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем
-
Если Вселенная — симуляция, то квантовая механика — следствие
Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?
https://habr.com/ru/articles/1025222/
#гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем
-
Если Вселенная — симуляция, то квантовая механика — следствие
Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?
https://habr.com/ru/articles/1025222/
#гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем
-
Если Вселенная — симуляция, то квантовая механика — следствие
Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?
https://habr.com/ru/articles/1025222/
#гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем
-
Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B
TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.
https://habr.com/ru/articles/1018682/
#Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python
-
Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B
TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.
https://habr.com/ru/articles/1018682/
#Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python
-
Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B
TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.
https://habr.com/ru/articles/1018682/
#Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python
-
Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B
TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.
https://habr.com/ru/articles/1018682/
#Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python
-
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM
https://habr.com/ru/articles/1018136/
#llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование
-
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM
https://habr.com/ru/articles/1018136/
#llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование
-
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM
https://habr.com/ru/articles/1018136/
#llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование
-
Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского
Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM
https://habr.com/ru/articles/1018136/
#llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование
-
Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей
Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.
https://habr.com/ru/articles/984248/
#LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование
-
Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей
Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.
https://habr.com/ru/articles/984248/
#LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование
-
Как квантовать LLM. Практическое руководство для начинающих
В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM. 🔥 Начинаем 🔥
https://habr.com/ru/articles/975468/
#квантование #оптимизация_нейросетей #искусственный_интеллект #llm
-
Кто убил интеллект? Расследование деградации ChatGPT, Claude, Gemini и других LLM
Всем привет! Недавно я вновь сменил свою основную LLM-модель. Долгое время пользовался Claude, потом перешел на ChatGPT, затем на Gemini, и вот я опять оплатил Claude и снова отменил подписку. Почему? Потому что Gemini, который поначалу казался невероятно мощным, в какой-то момент просто перестал справляться с моими основными задачами, а до этого так же сделал Claude и ChatGPT. Они стали лениться, игнорировать части промпта и выдавать поверхностные ответы.
https://habr.com/ru/companies/timeweb/articles/935208/
#llm #деградация_моделей #gpt4 #claude #gemini #квантование #дистилляция #moe #искусственный_интеллект #timeweb_статьи
-
[Перевод] Оптимизация LLM: LoRA и QLoRA
С ростом сложности и масштабности современных языковых моделей, таких как GPT, потребность в эффективных методах их адаптации под специфические задачи становится все более актуальной. Однако традиционные подходы к тонкой настройке моделей часто требуют огромных вычислительных ресурсов и значительного времени. В этой статье мы рассмотрим два подхода — LoRA и QLoRA — которые обещают значительно снизить затраты на обучение без потери качества модели. Мы разберем, как эти методы позволяют оптимизировать вычисления и память, а также как с их помощью можно эффективно адаптировать большие модели под разнообразные прикладные задачи.
https://habr.com/ru/companies/otus/articles/935286/
#Адаптация_нейросетей #квантование #Оптимизация_LLM #Тонкая_настройка_модели #fine_tuning #LoRA #машинное_обучение #LLM
-
Малые числа, большие возможности: Роль плавающей запятой в ИИ
Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.
https://habr.com/ru/companies/itglobalcom/articles/934910/
#fp8 #ai #ieee #квантование #машинное_обучение #обработка_данных #nvidia #amd #intel #ocp
-
[Перевод] Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0
Привет! Задумывались, какую версию квантованной LLM выбрать: Q4_K_M, Q6_K или Q8_0? Насколько Q6_K хуже справляется с задачами по сравнению с Q8_0? И что вообще означают все эти буквы в суффиксах? Примечание: это адаптированный перевод моей статьи на Medium. Перевод был сделан при помощи мозга, а не нейросетей или Google Translate. Узнать чуть больше про квантование LLM
https://habr.com/ru/articles/918936/
#ai #ml #llm #llmмодели #llmприложения #llmархитектура #квантование #искусственный_интеллект #ии #ии_и_машинное_обучение
-
HIGGS: Новый алгоритм квантования нейросетей
Давайте разберёмся в том, как работает новый метод квантования больших языковых моделей HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)
-
Квантованные БМ сети: упрощаем типы данных
Как вы уже видели, регулярно читая наш блог, мы не только занимаемся разработкой промышленных систем распознавания документов ( паспортов , кадрового документооборота, первички и т.п.), но и активно развиваем перспективные технологии в области компьютерного зрения. Сегодняшняя статья из области эффективных нейросетевых архитектур. Биполярные морфологические (БМ) сети – нейронные сети от Smart Engines практически без умножения. Мы уже показали, что они успешно справляются с задачами классификации изображений и поиска объектов на изображениях. Однако для достижения высокой вычислительной и энергоэффективности важно не только максимально упростить используемые операции, но и взять максимально простой и компактный тип данных, то есть отквантовать нейронную сеть. Так что насчет квантования БМ сетей?
https://habr.com/ru/companies/smartengines/articles/885424/
#биполярный_морфологический_нейрон #квантование #аппроксимация #дообучение #smart_engines
-
Квантовать или не квантовать LLM?
Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.
-
Краткий гайд по квантованию нейросетей
Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть. Рассказываем о видах квантования и приводим примеры в этой статье
https://habr.com/ru/articles/848306/
#Квантование #оптимизация_нейросетей #как_уменьшить_память_нейросети #нейросеть #машинное_обучение #tensorflow #ускорить_модель_ИИ
-
Как настроить LLM на локальном сервере? Пошаговое руководство для ML-специалистов
Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять
https://habr.com/ru/companies/selectel/articles/846510/
#selectel #compresia #compressa_ai #llm #машинное_обучение #большие_языковые_модели #квантование #loraадаптеры
-
Как устроены 4.6-битные сети: обучение
Мы уже писали о том, что предложили новую модель квантования нейронных сетей, позволяющую ускорить их на 40% на центральных процессорах, а также о том, как она устроена тут . Сегодня мы расскажем о том, как мы в Smart Engines обучали 4.6-битные сети.
https://habr.com/ru/companies/smartengines/articles/823366/
#нейронные_сети #методы_квантования #квантование #классификация_изображений #сегментация_изображений #оптимизация #машинное_обучение #искусственный_интеллект #распознавание_паспорта
-
Как устроены 4.6-битные сети: идея и имплементация
Мы уже писали о том, что предложили новую модель квантования нейронных сетей, позволяющую ускорить их на 40% на центральных процессорах, и теперь пришло время рассказать о ней подробнее.
https://habr.com/ru/companies/smartengines/articles/822407/
#нейронные_сети #квантование #центральные_процессоры #имплементация
-
Сравнение различных схем квантования для LLM
Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование! Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели.
https://habr.com/ru/articles/797443/
#llm #ai #nlp #chatgpt #gpt4 #квантование #llama #rag #benchmark #Q4_0
-
Разбираем самый маленький JPEG в мире
Недавно здесь была статья с описанием самого маленького файла PNG. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех этих нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.
-
Разбираем самый маленький JPEG в мире
Недавно здесь была статья с описанием самого маленького файла PNG. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех этих нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.