home.social

#квантование — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #квантование, aggregated by home.social.

  1. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

  2. Как возникает реальность? Новая математическая модель. Сравнение с другими теориями

    В квантовой механике есть странный факт, к которому все привыкли, но который редко проговаривается до конца. Система описывается как набор возможностей — волновой функцией. Но в результате измерения мы всегда получаем один конкретный результат . Не распределение, не «облако вероятностей», а: — щелчок детектора — точка на экране — конкретное значение Откуда вообще берётся этот переход? Почему из непрерывной структуры возможностей возникает дискретная реальность?

    habr.com/ru/articles/1025424/

    #физика #квантовая_физика #реальность #объективность #философия #квантование #измерение #суперпозиция #интерференция #феномены

  3. Если Вселенная — симуляция, то квантовая механика — следствие

    Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?

    habr.com/ru/articles/1025222/

    #гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем

  4. Если Вселенная — симуляция, то квантовая механика — следствие

    Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?

    habr.com/ru/articles/1025222/

    #гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем

  5. Если Вселенная — симуляция, то квантовая механика — следствие

    Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?

    habr.com/ru/articles/1025222/

    #гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем

  6. Если Вселенная — симуляция, то квантовая механика — следствие

    Квантовая механика как следствие того что мы в симуляции Гипотеза о том, что мы живем в симуляции, давно перестала быть уделом одних лишь философов. Сегодня об этом всерьез рассуждают астрофизики и специалисты по теории информации. Но обычно дискуссии сводятся к банальным вещам: пикселям (планковской длине) или ограничениям FPS (планковскому времени). Когда я смотрю на самую большую проблему современной науки — несовместимость макромира (гравитации, ОТО) и микромира (квантовой механики) — я вижу классическую архитектурную проблему высоконагруженного движка. Давайте проведем мысленный эксперимент и посмотрим на устройство Вселенной глазами системного архитектора. Что если странные законы квантового мира — это не какая-то непостижимая «магия неопределенности», а элегантный алгоритм синхронизации, призванный спасти систему от краша из-за высокого локального пинга?

    habr.com/ru/articles/1025222/

    #гипотеза_симуляции #квантовая_механика #мысленный_эксперимент #устройство_вселенной #tick_rate #синхронизация #квантование #нильс_бор #геймдев #архитектура_систем

  7. Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

    TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.

    habr.com/ru/articles/1018682/

    #Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python

  8. Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

    TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.

    habr.com/ru/articles/1018682/

    #Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python

  9. Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

    TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.

    habr.com/ru/articles/1018682/

    #Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python

  10. Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

    TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.

    habr.com/ru/articles/1018682/

    #Gemma_4 #LLM #MLOps #Kaggle #Hugging_Face #bitsandbytes #Квантование #NF4 #Transformers #Python

  11. Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского

    Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM

    habr.com/ru/articles/1018136/

    #llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование

  12. Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского

    Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM

    habr.com/ru/articles/1018136/

    #llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование

  13. Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского

    Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM

    habr.com/ru/articles/1018136/

    #llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование

  14. Как я уместил «Войну и мир» в 10 ГБ видеопамяти, или почему нейросеть убивает героев и выдумывает Пьера Бездаровского

    Что делать, если по литературе задали два тома "Войны и мира", а времени (или желания) читать нет? Конечно, запрячь нейросеть! Но как быть, если в твоем распоряжении всего 10 ГБ видеопамяти, а модель упорно пытается "убить" выживших героев и переименовывает Пьера Безухова в Бездаровского? В этой статье я поделюсь опытом запуска Saiga Llama 3 8B на домашнем железе, расскажу, как бороться с галлюцинациями через промпт-инжиниринг, и почему 7500 символов текста Толстого иногда весят столько же, сколько одна строчка жесткого правила в системном промпте. Внутри - анализ вероятностей токенов, лог работы модели и готовый код для суммаризации длинных текстов. Узнать, как я спас Николая Ростова от LLM

    habr.com/ru/articles/1018136/

    #llm #llama_3 #нейросети #машинное_обучение #промптинжиниринг #nlp #генерация_текста #python #война_и_мир #квантование

  15. Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

    Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.

    habr.com/ru/articles/984248/

    #LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование

  16. Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

    Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.

    habr.com/ru/articles/984248/

    #LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование

  17. Как квантовать LLM. Практическое руководство для начинающих

    В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM. 🔥 Начинаем 🔥

    habr.com/ru/articles/975468/

    #квантование #оптимизация_нейросетей #искусственный_интеллект #llm

  18. Кто убил интеллект? Расследование деградации ChatGPT, Claude, Gemini и других LLM

    Всем привет! Недавно я вновь сменил свою основную LLM-модель. Долгое время пользовался Claude, потом перешел на ChatGPT, затем на Gemini, и вот я опять оплатил Claude и снова отменил подписку. Почему? Потому что Gemini, который поначалу казался невероятно мощным, в какой-то момент просто перестал справляться с моими основными задачами, а до этого так же сделал Claude и ChatGPT. Они стали лениться, игнорировать части промпта и выдавать поверхностные ответы.

    habr.com/ru/companies/timeweb/

    #llm #деградация_моделей #gpt4 #claude #gemini #квантование #дистилляция #moe #искусственный_интеллект #timeweb_статьи

  19. [Перевод] Оптимизация LLM: LoRA и QLoRA

    С ростом сложности и масштабности современных языковых моделей, таких как GPT, потребность в эффективных методах их адаптации под специфические задачи становится все более актуальной. Однако традиционные подходы к тонкой настройке моделей часто требуют огромных вычислительных ресурсов и значительного времени. В этой статье мы рассмотрим два подхода — LoRA и QLoRA — которые обещают значительно снизить затраты на обучение без потери качества модели. Мы разберем, как эти методы позволяют оптимизировать вычисления и память, а также как с их помощью можно эффективно адаптировать большие модели под разнообразные прикладные задачи.

    habr.com/ru/companies/otus/art

    #Адаптация_нейросетей #квантование #Оптимизация_LLM #Тонкая_настройка_модели #fine_tuning #LoRA #машинное_обучение #LLM

  20. Малые числа, большие возможности: Роль плавающей запятой в ИИ

    Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.

    habr.com/ru/companies/itglobal

    #fp8 #ai #ieee #квантование #машинное_обучение #обработка_данных #nvidia #amd #intel #ocp

  21. [Перевод] Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

    Привет! Задумывались, какую версию квантованной LLM выбрать: Q4_K_M, Q6_K или Q8_0? Насколько Q6_K хуже справляется с задачами по сравнению с Q8_0? И что вообще означают все эти буквы в суффиксах? Примечание: это адаптированный перевод моей статьи на Medium. Перевод был сделан при помощи мозга, а не нейросетей или Google Translate. Узнать чуть больше про квантование LLM

    habr.com/ru/articles/918936/

    #ai #ml #llm #llmмодели #llmприложения #llmархитектура #квантование #искусственный_интеллект #ии #ии_и_машинное_обучение

  22. HIGGS: Новый алгоритм квантования нейросетей

    Давайте разберёмся в том, как работает новый метод квантования больших языковых моделей HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)

    habr.com/ru/articles/900696/

    #HIGGS #квантование #llm

  23. Квантованные БМ сети: упрощаем типы данных

    Как вы уже видели, регулярно читая наш блог, мы не только занимаемся разработкой промышленных систем распознавания документов ( паспортов , кадрового документооборота, первички и т.п.), но и активно развиваем перспективные технологии в области компьютерного зрения. Сегодняшняя статья из области эффективных нейросетевых архитектур. Биполярные морфологические (БМ) сети – нейронные сети от Smart Engines практически без умножения. Мы уже показали, что они успешно справляются с задачами классификации изображений и поиска объектов на изображениях. Однако для достижения высокой вычислительной и энергоэффективности важно не только максимально упростить используемые операции, но и взять максимально простой и компактный тип данных, то есть отквантовать нейронную сеть. Так что насчет квантования БМ сетей?

    habr.com/ru/companies/smarteng

    #биполярный_морфологический_нейрон #квантование #аппроксимация #дообучение #smart_engines

  24. Квантовать или не квантовать LLM?

    Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.

    habr.com/ru/companies/first/ar

    #llm #квантование #llamacpp

  25. Краткий гайд по квантованию нейросетей

    Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть. Рассказываем о видах квантования и приводим примеры в этой статье

    habr.com/ru/articles/848306/

    #Квантование #оптимизация_нейросетей #как_уменьшить_память_нейросети #нейросеть #машинное_обучение #tensorflow #ускорить_модель_ИИ

  26. Как настроить LLM на локальном сервере? Пошаговое руководство для ML-специалистов

    Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять

    habr.com/ru/companies/selectel

    #selectel #compresia #compressa_ai #llm #машинное_обучение #большие_языковые_модели #квантование #loraадаптеры

  27. Как устроены 4.6-битные сети: обучение

    Мы уже писали о том, что предложили новую модель квантования нейронных сетей, позволяющую ускорить их на 40% на центральных процессорах, а также о том, как она устроена тут . Сегодня мы расскажем о том, как мы в Smart Engines обучали 4.6-битные сети.

    habr.com/ru/companies/smarteng

    #нейронные_сети #методы_квантования #квантование #классификация_изображений #сегментация_изображений #оптимизация #машинное_обучение #искусственный_интеллект #распознавание_паспорта

  28. Как устроены 4.6-битные сети: идея и имплементация

    Мы уже писали о том, что предложили новую модель квантования нейронных сетей, позволяющую ускорить их на 40% на центральных процессорах, и теперь пришло время рассказать о ней подробнее.

    habr.com/ru/companies/smarteng

    #нейронные_сети #квантование #центральные_процессоры #имплементация

  29. Сравнение различных схем квантования для LLM

    Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование! Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели.

    habr.com/ru/articles/797443/

    #llm #ai #nlp #chatgpt #gpt4 #квантование #llama #rag #benchmark #Q4_0

  30. Разбираем самый маленький JPEG в мире

    Недавно здесь была статья с описанием самого маленького файла PNG. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех этих нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.

    habr.com/ru/articles/791302/

    #jpeg #хаффман #dct #квантование

  31. Разбираем самый маленький JPEG в мире

    Недавно здесь была статья с описанием самого маленького файла PNG. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и Reddit можно встретить размеры 107, 119, 125, 134, 141, 160 байтов. Все они представляют серый прямоугольник 1 на 1. И кто прав? Все правы, просто такая разница объясняется различными режимами кодирования и степенью строгости соответствия стандарту. Описание всех этих нюансов разрослось до целой статьи cо всеми необходимыми подробностями для более-менее хорошего знакомства с самыми маленькими jpeg-ами. После краткой теории разберем 159-байтный файл на КДПВ, а затем рассмотрим способы его уменьшения.

    habr.com/ru/articles/791302/

    #jpeg #хаффман #dct #квантование