home.social

#локальный_ии — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #локальный_ии, aggregated by home.social.

  1. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  2. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  3. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  4. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  5. Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

    Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

    habr.com/ru/articles/1032610/

    #llm #токенизация #нейросети #локальный_ии #selfhosted #кириллица #qwen #gigachat #llama #yandexgpt

  6. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  7. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  8. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  9. Как сделать локальный генератор изображений через ComfyUI

    Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

    habr.com/ru/articles/1030754/

    #ComfyUI #генерация_изображений #нейросети #локальный_ИИ #генеративный_ИИ #NoobXL #CFG_Scale #локальная_генерация #workflow #texttoimage

  10. Дружба Linux и Windows, или как поиграться с ИИ-моделями на втором компьютере без видеокарты

    Работаете под Windows? Есть лишний компьютер? Нет видеокарты, но хотите сами запускать ИИ-модели? Тогда делаем как на картинке, по шагам.

    habr.com/ru/articles/1024950/

    #Локальный_ИИ #Windows #LMStudio #openwebui #linux_mint #паранойя_mode_on

  11. Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

    В этой статье я расскажу, как установить нейросеть на своё оборудование. Так вы сможете изучить LLM и применить их на практике. При этом ваши данные не будут передаваться в чужие облака, что критично при работе с конфиденциальными данными. И вам не придётся платить за использование какого-либо внешнего сервиса или решать вопросы с заблокированным доступом. Вы установите инструмент для запуска больших языковых моделей llama.cpp и модель нейросети Qwen на компьютер или сервер. Я расскажу об установке в тех случаях, когда в составе оборудования есть Nvidia GPU или интегрированная графика Intel Iris Xe Graphics (актуально для ноутбуков).

    habr.com/ru/companies/first/ar

    #нейросети #искусственный_интеллект #llamacpp #qwen #локальный_ии

  12. Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели

    Хочу рассказать о том, как я создавал tg бота на локальной LLM Ollama и с какими проблемами я столкнулся. Бот написан на python и библиотеке telegram. Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний например ChatGPT, то тут можно упереться в то, что за них нужно платить. Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома. Бот продолжает развиваться. Следить за обновлениями и новыми фичами можно в моем Telegram-канале: t.me/rocet_0 Изучить историю

    habr.com/ru/articles/1008248/

    #Python #Telegram_бот #Ollama #LLM #искусственный_интеллект #генерация_изображений #самообучение #локальный_ИИ #разработка_ботов #кейс

  13. Как запустить 4 независимые нейросети на одном GPU (16 ГБ) под FastAPI

    Как поднять мультимодальный AI-сервис (OCR, ASR, LLM, TTS) на одной GPU 16GB без облачных API? Разбираем пошагово: - Подготовка VPS (Ubuntu + CUDA + драйверы) -FastAPI-архитектура с PyTorch/Transformers - Управление памятью (без OOM-ошибок) - Продакшен: systemd + Nginx + HTTPS + домен - Тестирование в Swagger Итог: локальный сервис "под ключ" с предсказуемыми расходами, полной приватностью данных и возможностью масштабирования. Для кого: DevOps, Python-разработчики, AI-интеграторы, стартапы. Исходники в репозитории, демо-видео, лайфхаки по разработке прямо на сервере!

    habr.com/ru/companies/hostkey/

    #fastapi #whisper #deepseek #deepseek_ocr #python #локальный_ии #Локальные_LLM_VPS #Локальный_AI_сервис #OCR_ASR_TTS_сервер #CUDA_PyTorch_FastAPI

  14. Запускаем LLM на iPhone локально — мой опыт с Gemma 2B

    Долгое время меня мучал вопрос - возможно ли запустить ИИшку у себя на телефоне, и если да, то какую. Я уверен, что об этом думали многие, но не понимали смысла, зачем тратить время на такого рода занятия. Что ж, я не выдержал и сделал мини-приложение, которое запускает Qwen / Gemma модель и общается с вами без доступа в интернет - прямо на смартфоне.

    habr.com/ru/articles/977476/

    #Сезон_ИИ_в_разработке #iOS #Swift #LLM #нейросеть #Gemma #llamacpp #офлайн #локальный_ИИ #мобильная_разработка

  15. Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

    Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!

    habr.com/ru/articles/975824/

    #OCR #DeepSeek #Qwen #vLLM #Docker #LLM #локальный_ИИ #оцифровка_документов #selfhosted #Сезон_ИИ_в_разработке

  16. Делаю своего ИИ-помощника для экосистемы HalNet

    Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

    habr.com/ru/articles/973006/

    #ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

  17. Делаю своего ИИ-помощника для экосистемы HalNet

    Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

    habr.com/ru/articles/973006/

    #ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

  18. Делаю своего ИИ-помощника для экосистемы HalNet

    Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

    habr.com/ru/articles/973006/

    #ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

  19. Делаю своего ИИ-помощника для экосистемы HalNet

    Локальный ИИ-ассистент прямо в мессенджере HalChat: без серверов, без рисков, только приватность и RAG.

    habr.com/ru/articles/973006/

    #ИИ #Локальный_ИИ #HalChat #HalSM #ИИ_Помощник #WLamma #приватность #javascript #экосистема #чат_бот

  20. HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

    Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

    habr.com/ru/articles/966888/

    #ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

  21. HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

    Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

    habr.com/ru/articles/966888/

    #ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

  22. HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

    Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

    habr.com/ru/articles/966888/

    #ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

  23. HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

    Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

    habr.com/ru/articles/966888/

    #ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

  24. Google AI Edge Gallery: локальный ИИ прямо на смартфоне — без облака, без интернета

    Тест-драйв локального искусственного интеллекта, который работает даже в авиарежиме. И умеет распознавать списки покупок. Google тихонько выкатил AI Edge Gallery — экспериментальное Android-приложение, которое позволяет запускать ИИ-модели прямо на смартфоне , без интернета и всяких VPN. Всё крутится локально, на вашем устройстве. Модели подтягиваются с Hugging Face (например, Gemma от Google - "младшая сестра" Gemini) и работают либо на CPU, либо на GPU — в зависимости от того, насколько сильно вы готовы разогревать свой телефон.

    habr.com/ru/articles/918404/

    #Google_AI_Edge_Gallery #локальный_ИИ #офлайн_ИИ #Hugging_Face #android #ai #искусственный_интеллект