#локальный_ии — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#yandexgpt #llama #gigachat #qwen #кириллица #selfhosted

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

https://habr.com/ru/articles/1032610/

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

#llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица

Habr @[email protected] · 2026-05-03 · 00:42 UTC

Как сделать локальный генератор изображений через ComfyUI

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

https://habr.com/ru/articles/1030754/

#ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

#texttoimage #workflow #локальная_генерация #cfg_scale #noobxl #генеративный_ии

Habr @[email protected] · 2026-05-03 · 00:42 UTC

Как сделать локальный генератор изображений через ComfyUI

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

https://habr.com/ru/articles/1030754/

#ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

#texttoimage #workflow #локальная_генерация #cfg_scale #noobxl #генеративный_ии

Habr @[email protected] · 2026-05-03 · 00:42 UTC

Как сделать локальный генератор изображений через ComfyUI

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

https://habr.com/ru/articles/1030754/

#ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

#texttoimage #workflow #локальная_генерация #cfg_scale #noobxl #генеративный_ии

Habr @[email protected] · 2026-05-03 · 00:42 UTC

Как сделать локальный генератор изображений через ComfyUI

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

https://habr.com/ru/articles/1030754/

#ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

#comfyui #генерация_изображений #нейросети #локальный_ии #генеративный_ии #noobxl

Habr @[email protected] · 2026-04-18 · 10:22 UTC

Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты

Работаете под Windows? Есть лишний компьютер? Нет видеокарты, но хотите сами запускать ИИ-модели? Тогда делаем как на картинке, по шагам.

https://habr.com/ru/articles/1024950/

#Локальный_ИИ #Windows #LMStudio #openwebui #linux_mint #паранойя_mode_on

#паранойя_mode_on #linux_mint #openwebui #lmstudio #windows #локальный_ии

Habr @[email protected] · 2026-04-03 · 09:32 UTC

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично при работе с конфиденциальными данными. И вам не придётся платить за использование какого-либо внешнего сервиса или решать вопросы с заблокированным доступом. Вы установите инструмент для запуска больших языковых моделей llama.cpp и модель нейросети Qwen на компьютер или сервер. Я расскажу об установке в тех случаях, когда в составе оборудования есть Nvidia GPU или интегрированная графика Intel Iris Xe Graphics (актуально для ноутбуков).

https://habr.com/ru/companies/first/articles/1017822/

#нейросети #искусственный_интеллект #llamacpp #qwen #локальный_ии

#локальный_ии #qwen #llamacpp #искусственный_интеллект #нейросети

Habr @[email protected] · 2026-03-09 · 17:32 UTC

Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели

Хочу рассказать о том, как я создавал tg бота на локальной LLM Ollama и с какими проблемами я столкнулся. Бот написан на python и библиотеке telegram. Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний например ChatGPT, то тут можно упереться в то, что за них нужно платить. Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома. Бот продолжает развиваться. Следить за обновлениями и новыми фичами можно в моем Telegram-канале: https://t.me/rocet_0 Изучить историю

https://habr.com/ru/articles/1008248/

#Python #Telegram_бот #Ollama #LLM #искусственный_интеллект #генерация_изображений #самообучение #локальный_ИИ #разработка_ботов #кейс

#кейс #разработка_ботов #локальный_ии #самообучение #генерация_изображений #искусственный_интеллект

Habr @[email protected] · 2026-01-12 · 08:12 UTC

Как запустить 4 независимые нейросети на одном GPU (16 ГБ) под FastAPI

Как поднять мультимодальный AI-сервис (OCR, ASR, LLM, TTS) на одной GPU 16GB без облачных API? Разбираем пошагово: - Подготовка VPS (Ubuntu + CUDA + драйверы) -FastAPI-архитектура с PyTorch/Transformers - Управление памятью (без OOM-ошибок) - Продакшен: systemd + Nginx + HTTPS + домен - Тестирование в Swagger Итог: локальный сервис "под ключ" с предсказуемыми расходами, полной приватностью данных и возможностью масштабирования. Для кого: DevOps, Python-разработчики, AI-интеграторы, стартапы. Исходники в репозитории, демо-видео, лайфхаки по разработке прямо на сервере!

https://habr.com/ru/companies/hostkey/articles/982278/

#fastapi #whisper #deepseek #deepseek_ocr #python #локальный_ии #Локальные_LLM_VPS #Локальный_AI_сервис #OCR_ASR_TTS_сервер #CUDA_PyTorch_FastAPI

#cuda_pytorch_fastapi #ocr_asr_tts_сервер #локальный_ai_сервис #локальные_llm_vps #локальный_ии #python

Habr @[email protected] · 2025-12-17 · 06:02 UTC

Запускаем LLM на iPhone локально — мой опыт с Gemma 2B

Долгое время меня мучал вопрос - возможно ли запустить ИИшку у себя на телефоне, и если да, то какую. Я уверен, что об этом думали многие, но не понимали смысла, зачем тратить время на такого рода занятия. Что ж, я не выдержал и сделал мини-приложение, которое запускает Qwen / Gemma модель и общается с вами без доступа в интернет - прямо на смартфоне.

https://habr.com/ru/articles/977476/

#Сезон_ИИ_в_разработке #iOS #Swift #LLM #нейросеть #Gemma #llamacpp #офлайн #локальный_ИИ #мобильная_разработка

#мобильная_разработка #локальный_ии #офлайн #llamacpp #gemma #нейросеть

Habr @[email protected] · 2025-12-11 · 15:12 UTC

Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!

https://habr.com/ru/articles/975824/

#OCR #DeepSeek #Qwen #vLLM #Docker #LLM #локальный_ИИ #оцифровка_документов #selfhosted #Сезон_ИИ_в_разработке

#сезон_ии_в_разработке #selfhosted #оцифровка_документов #локальный_ии #llm #docker

Habr @[email protected] · 2025-12-03 · 19:22 UTC

Делаю своего ИИ-помощника для экосистемы HalNet

Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

https://habr.com/ru/articles/973006/

#ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

#чат_бот #экосистема #javascript #приватность #wlamma #ии_помощник

Habr @[email protected] · 2025-12-03 · 19:22 UTC

Делаю своего ИИ-помощника для экосистемы HalNet

Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

https://habr.com/ru/articles/973006/

#ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

#чат_бот #экосистема #javascript #приватность #wlamma #ии_помощник

Habr @[email protected] · 2025-12-03 · 19:22 UTC

Делаю своего ИИ-помощника для экосистемы HalNet

Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

https://habr.com/ru/articles/973006/

#ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

#чат_бот #экосистема #javascript #приватность #wlamma #ии_помощник

Habr @[email protected] · 2025-12-03 · 19:22 UTC

Делаю своего ИИ-помощника для экосистемы HalNet

Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

https://habr.com/ru/articles/973006/

#ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

#ии #локальный_ии #halchat #halsm #ии_помощник #wlamma

Habr @[email protected] · 2025-11-16 · 11:32 UTC

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

https://habr.com/ru/articles/966888/

#ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

#экосистема #чат_бот #javascript #приватность #llm #wllama

Habr @[email protected] · 2025-11-16 · 11:32 UTC

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

https://habr.com/ru/articles/966888/

#ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

#экосистема #чат_бот #javascript #приватность #llm #wllama

Habr @[email protected] · 2025-11-16 · 11:32 UTC

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

https://habr.com/ru/articles/966888/

#ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

#экосистема #чат_бот #javascript #приватность #llm #wllama

Habr @[email protected] · 2025-11-16 · 11:32 UTC

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

https://habr.com/ru/articles/966888/

#ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

#ии #локальный_ии #halchat #halsm #wllama #llm

Habr @[email protected] · 2025-06-14 · 18:12 UTC

Google AI Edge Gallery: локальный ИИ прямо на смартфоне — без облака, без интернета

Тест-драйв локального искусственного интеллекта, который работает даже в авиарежиме. И умеет распознавать списки покупок. Google тихонько выкатил AI Edge Gallery — экспериментальное Android-приложение, которое позволяет запускать ИИ-модели прямо на смартфоне , без интернета и всяких VPN. Всё крутится локально, на вашем устройстве. Модели подтягиваются с Hugging Face (например, Gemma от Google - "младшая сестра" Gemini) и работают либо на CPU, либо на GPU — в зависимости от того, насколько сильно вы готовы разогревать свой телефон.

https://habr.com/ru/articles/918404/

#Google_AI_Edge_Gallery #локальный_ИИ #офлайн_ИИ #Hugging_Face #android #ai #искусственный_интеллект

#искусственный_интеллект #ai #android #hugging_face #офлайн_ии #локальный_ии