#vllm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #vllm, aggregated by home.social.
-
DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан
NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.
https://habr.com/ru/articles/1033342/
#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии
-
Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента
Авантюра на 4× RTX 4090, два блока питания и водяное охлаждение - машину, которую мы собрали для крупного клиента, еле-еле подняли вдвоём. История о том, как мы собрали махину в 96 GB VRAM. Внутри - полная сборка и бенчмарки популярных моделей.
https://habr.com/ru/articles/1032698/
#RTX_4090 #vLLM #onpremise #локальный_AI_сервер #локальный_ИИ_сервер #водяное_охлаждение #LLM_inference #GPU_сервер #речевая____
__аналитика #selfhosted_LLM -
Почему self-hosted LLM падает в проде
Привет! Меня зовут Андрей Пахомов, я разработчик в AI Platform Битрикс24. Сегодня расскажу, почему self-hosted LLM ломается в проде, где на самом деле возникают проблемы и какие метрики помогают вовремя это увидеть.
https://habr.com/ru/companies/bitrix/articles/1027842/
#selfhosted_LLM #LLM_в_продакшене #vLLM #observability #мониторинг_LLM
-
Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло
У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh , ноль обращений к внешним API. Я делал это не как pet-project, а под себя — мне нужна была машина для работы с корпоративными документами, договорами и регламентами, которые ни при каких условиях нельзя отдавать в облачные ассистенты. Сборка получилась самостоятельным дистрибутивом — назвал его AGmind, выложил на GitHub под Apache 2.0. В статье разберу: — из чего собран стек и зачем там каждый компонент; — почему RAGFlow пришлось пересобрать с нуля и что я туда добавил; — как устроен кластер из двух Spark'ов; — пять конкретных грабель GB10, которые я ловил вечерами; — почему Claude Code за месяц превратил один из этих компонентов в работающий продукт, но при этом не заменил собственно программиста.
-
So today is vLLM setup day as I want to run a few experiments with parallel inferencing.
Funnily LLM inference does not need 2 times the time and energy of you batch 2 request at the same time. So what I am trying to do is to have the same model come up with 2 or 3 different solutions for a functions or test so I then can choose the one that needs less editing.
Nothing that is not a year old already but regardless i imagine it super useful in a local only setup.
-
Comparison: vLLM 0.6 vs. Text Generation Inference 1.4 for Serving Code LLMs Serving code LLMs at production scale is 3.2x more expensive than general-purpose LLMs when using unoptimized runtimes, ...
#comparison #vllm #text #generation
Origin | Interest | Match -
Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни
Реальная история: компания внедряет AI, но оценивать экспертов назначила DevOps-инженера на n8n. Это не исключение — это норма для СНГ-рынка. И вот почему это проблема.
https://habr.com/ru/articles/1027410/
#искусственный_интеллект #langgraph #vllm #llamacpp #python #itрынок_снг #itрынок #itрынок_россии
-
Red Hat and Tesla engineers tackled a real production problem together.
3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.
This is what open source looks like. 🤝 🚀
https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource
-
Red Hat and Tesla engineers tackled a real production problem together.
3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.
This is what open source looks like. 🤝 🚀
https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource
-
Red Hat and Tesla engineers tackled a real production problem together.
3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.
This is what open source looks like. 🤝 🚀
https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource
-
Red Hat and Tesla engineers tackled a real production problem together.
3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.
This is what open source looks like. 🤝 🚀
https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource
-
Red Hat and Tesla engineers tackled a real production problem together.
3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.
This is what open source looks like. 🤝 🚀
https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm
#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource
-
vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями
Привет, Хабр! Меня зовут Кирилл Нетреба , я Backend-ML-инженер в Авито . В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста . Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency. Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.
-
Как развернуть Qwen в облаке так, чтобы модель не была доступна из интернета
Разворачивать LLM на своих мощностях часто приходится не из-за любви к self-hosted решениям, а ради контроля над данными и предсказуемого инференса. И обычно этого еще требуют стандарты безопасности или архитектура внутренних инструментов компании. В статье покажем, как поднять Qwen
https://habr.com/ru/companies/selectel/articles/1026406/
#ai #ml #selectel #qwen #openai_api #openai #vllm #llm #selfhosted #inference
-
Как мы научили ИИ подбирать мебель по архитектурным чертежам
В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.
https://habr.com/ru/articles/1025848/
#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json
-
pip install vllm: The iceberg under a single command
https://developers.redhat.com/articles/2026/04/16/pip-install-vllm-single-command#
-
ИИ Анализ новостного сентимента как торговый сигнал
🧠ИИ анализ новостного сентимента как источник торгового сигнала 🐻🔄🐂 Рынок меняет тренд с бычего на медвежий несколько раз в день - это обусловлено новостными настроениями, а не историей цен. Индикаторы не работают Используем изменение настроений в соцсетях как торговый сигнал
https://habr.com/ru/articles/1025238/
#сезон_ии_в_разработке #gptoss20b #vllm #llm #новости #исскуственный_интеллект #машинное+обучение #бизнесалгоритмы #typescript #python
-
233% 3-year return on investment and 13 months to payback with Red Hat AI
https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai
#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM
-
233% 3-year return on investment and 13 months to payback with Red Hat AI
https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai
#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM
-
233% 3-year return on investment and 13 months to payback with Red Hat AI
https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai
#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM
-
233% 3-year return on investment and 13 months to payback with Red Hat AI
https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai
#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM
-
233% 3-year return on investment and 13 months to payback with Red Hat AI
https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai
#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM
-
Learn how to monitor LLM inference in production using Prometheus and Grafana. Track p95 latency, tokens/sec, queue duration, and KV cache usage across vLLM, TGI, and llama.cpp. Includes PromQL examples, dashboards, alerts, Docker & Kubernetes setups.
#Monitoring #Hosting #Self-Hosting #LLM #AI #DevOps #Docker #K8S #Prometheus #Grafana #observability #kubernetes #vllm
https://www.glukhov.org/observability/monitoring-llm-inference-prometheus-grafana/
-
Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B
#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM
-
Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B
#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM
-
Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B
#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM
-
Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B
#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM
-
Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B
#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM
-
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
-
Cut the AI marketing hype. Hardware sets the speed limit, but your infrastructure determines how fast you drive.
Our latest engineering blueprint breaks down the production realities of LLM serving:
✅ PCIe vs NVLink for Tensor Parallelism
✅ Fixing H100 thermal throttling & NVMe bottlenecks
✅ Production vLLM Docker tuning (Prefix Caching, FP8, IPC)
✅ Bare Metal ROI vs Cloud Virtualization TaxRead the guide:
🔗 https://www.servermo.com/howto/vllm-multi-gpu-setup/ -
Learn how to deploy vLLM at scale on Kubernetes with PagedAttention, continuous batching, and tensor parallelism for high-throughput LLM inference. Covers multi-GPU, multi-node strategies and best practices.
#vLLM #Kubernetes #GPU #Large Language Models #Tensor Parallelism
https://dasroot.net/posts/2026/02/deploying-vllm-scale-kubernetes/
-
#selfhosting can be daunting at first, it involves a few steps:
0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenasOnce you get the hang of this process, it gets really easy to spin up new services.
#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai -
#selfhosting can be daunting at first, it involves a few steps:
0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenasOnce you get the hang of this process, it gets really easy to spin up new services.
#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai -
#selfhosting can be daunting at first, it involves a few steps:
0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenasOnce you get the hang of this process, it gets really easy to spin up new services.
#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai -
#selfhosting can be daunting at first, it involves a few steps:
0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenasOnce you get the hang of this process, it gets really easy to spin up new services.
#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai -
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.
https://habr.com/ru/companies/bitrix/articles/1016734/
#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents
-
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.
https://habr.com/ru/companies/bitrix/articles/1016732/
#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents
-
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.
https://habr.com/ru/companies/bitrix/articles/1016734/
#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents
-
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.
https://habr.com/ru/companies/bitrix/articles/1016732/
#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents
-
Из коробки не работает: запускаем свежие большие LLM
В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.
-
Из коробки не работает: запускаем свежие большие LLM В последнее время открытых моделей сверхбольшого разме...
#Kimi-K2.5 #DeepSeek-v3.2 #GLM-5 #Qwen3.5 #vllm #B200
Origin | Interest | Match -
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works
https://techlife.blog/posts/llm-inference-optimization/
#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache
-
Best Open-Source LLMs You Can Run on 16 GB VRAM (As of 2026):
https://dasroot.net/posts/2026/01/best-open-source-llms-16gb-vram-2026/
#LLM #vLLM #Mixture-of-Experts #GPU #inference -
vLLM large scale serving: DeepSeek 2.2k tok/s/h200 with wide-ep
https://blog.vllm.ai/2025/12/17/large-scale-serving.html
#HackerNews #vLLM #large #scale #serving #DeepSeek #tok/s #wide-ep #AI #technology
-
[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено
https://habr.com/ru/companies/otus/articles/984434/
#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса
-
Người dùng đang tìm cách triển khai suy luận cục bộ cho mô hình lớn Qwen2.5-72B trên 2 GPU L40 (48GB VRAM mỗi chiếc) nhưng gặp trở ngại. Khi dùng Huggingface, quá trình bị treo, còn vLLM thì báo lỗi khởi tạo WorkerProc. Anh ấy đang tìm kiếm các gợi ý để giải quyết vấn đề phân chia mô hình và tăng tốc suy luận trên hệ thống đa GPU.
#LLM #AITech #vLLM #Huggingface #LocalInference #GPUComputing #Qwen2_5_72Bhttps://www.reddit.com/r/LocalLLaMA/comments/1q7gr9w/local_inference_with_big_model_shared_
-
Một phương pháp lặp lại trong thiết kế web:
- vLLM mô tả thiết kế → Coder sinh mã → Tự động chụp màn hình → So sánh kết quả với thiết kế → Lặp đến khi khớp. Công cụ đề xuất: LM Studio, Qwen3 VL, Qwen Coder. Yêu cầu: Ưu tiên builder luồng trực quan hỗ trợ chụp màn hình giữa luồng (không dùng Langflow).#AI #MãHóa #WebDev #LLM #TựĐộng #Coding #ThiếtKếWeb #vLLM #QwenCoder
https://www.reddit.com/r/LocalLLaMA/comments/1q6lq21/coder_loops_until_it_looks_like_in_the_design/