#vllm — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

Habr @[email protected] · 2026-05-08 · 06:02 UTC

Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента

Авантюра на 4× RTX 4090, два блока питания и водяное охлаждение - машину, которую мы собрали для крупного клиента, еле-еле подняли вдвоём. История о том, как мы собрали махину в 96 GB VRAM. Внутри - полная сборка и бенчмарки популярных моделей.

https://habr.com/ru/articles/1032698/

#RTX_4090 #vLLM #onpremise #локальный_AI_сервер #локальный_ИИ_сервер #водяное_охлаждение #LLM_inference #GPU_сервер #речевая____
__аналитика #selfhosted_LLM

#selfhosted_llm #речевая____ #gpu_сервер #llm_inference #водяное_охлаждение #локальный_ии_сервер

Habr @[email protected] · 2026-05-04 · 08:02 UTC

Почему self-hosted LLM падает в проде

Привет! Меня зовут Андрей Пахомов, я разработчик в AI Platform Битрикс24. Сегодня расскажу, почему self-hosted LLM ломается в проде, где на самом деле возникают проблемы и какие метрики помогают вовремя это увидеть.

https://habr.com/ru/companies/bitrix/articles/1027842/

#selfhosted_LLM #LLM_в_продакшене #vLLM #observability #мониторинг_LLM

#мониторинг_llm #observability #vllm #llm_в_продакшене #selfhosted_llm

Habr @[email protected] · 2026-05-03 · 09:22 UTC

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh , ноль обращений к внешним API. Я делал это не как pet-project, а под себя — мне нужна была машина для работы с корпоративными документами, договорами и регламентами, которые ни при каких условиях нельзя отдавать в облачные ассистенты. Сборка получилась самостоятельным дистрибутивом — назвал его AGmind, выложил на GitHub под Apache 2.0. В статье разберу: — из чего собран стек и зачем там каждый компонент; — почему RAGFlow пришлось пересобрать с нуля и что я туда добавил; — как устроен кластер из двух Spark'ов; — пять конкретных грабель GB10, которые я ловил вечерами; — почему Claude Code за месяц превратил один из этих компонентов в работающий продукт, но при этом не заменил собственно программиста.

https://habr.com/ru/articles/1030802/

#dgx_spark #gb10 #arm64 #vllm #dify #ragflow #rag #llm

#llm #rag #ragflow #dify #vllm #arm64

Heidenstedt 👩‍💻 @[email protected] · 2026-04-29 · 08:46 UTC

So today is vLLM setup day as I want to run a few experiments with parallel inferencing.

Funnily LLM inference does not need 2 times the time and energy of you batch 2 request at the same time. So what I am trying to do is to have the same model come up with 2 or 3 different solutions for a functions or test so I then can choose the one that needs less editing.

Nothing that is not a year old already but regardless i imagine it super useful in a local only setup.

#ai #llm #localLlm #vllm

#ai #llm #localllm #vllm

deepseek @[email protected] · 2026-04-29 · 04:20 UTC

Comparison: vLLM 0.6 vs. Text Generation Inference 1.4 for Serving Code LLMs Serving code LLMs at production scale is 3.2x more expensive than general-purpose LLMs when using unoptimized runtimes, ...

#comparison #vllm #text #generation

Origin | Interest | Match

#comparison #vllm #text #generation

Habr @[email protected] · 2026-04-24 · 09:12 UTC

Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

Реальная история: компания внедряет AI, но оценивать экспертов назначила DevOps-инженера на n8n. Это не исключение — это норма для СНГ-рынка. И вот почему это проблема.

https://habr.com/ru/articles/1027410/

#искусственный_интеллект #langgraph #vllm #llamacpp #python #itрынок_снг #itрынок #itрынок_россии

#itрынок_россии #itрынок #itрынок_снг #python #llamacpp #vllm

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-23 · 19:23 UTC

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

#redhat #tesla #redhatai #vllm #pytorch #kubernetes

Adam :redhat: :ansible: :bash: @maxamillion · 2026-04-23 · 19:23 UTC

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

#redhat #tesla #redhatai #vllm #pytorch #kubernetes

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-23 · 19:23 UTC

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

#redhat #tesla #redhatai #vllm #pytorch #kubernetes

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-23 · 19:23 UTC

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

#opensource #llama #llmd #kserve #openshift #kubernetes

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-23 · 19:23 UTC

Red Hat and Tesla engineers tackled a real production problem together.

3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

This is what open source looks like. 🤝 🚀

https://llm-d.ai/blog/production-grade-llm-inference-at-scale-kserve-llm-d-vllm

#RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

#redhat #tesla #redhatai #vllm #pytorch #kubernetes

Habr @[email protected] · 2026-04-23 · 09:22 UTC

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Привет, Хабр! Меня зовут Кирилл Нетреба , я Backend-ML-инженер в Авито . В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста . Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency. Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

https://habr.com/ru/companies/avito/articles/1024136/

#vllm #loraадаптеры #llm #инференс #мультимодальные_модели

#мультимодальные_модели #инференс #llm #loraадаптеры #vllm

Habr @[email protected] · 2026-04-22 · 12:02 UTC

Как развернуть Qwen в облаке так, чтобы модель не была доступна из интернета

Разворачивать LLM на своих мощностях часто приходится не из-за любви к self-hosted решениям, а ради контроля над данными и предсказуемого инференса. И обычно этого еще требуют стандарты безопасности или архитектура внутренних инструментов компании. В статье покажем, как поднять Qwen

https://habr.com/ru/companies/selectel/articles/1026406/

#ai #ml #selectel #qwen #openai_api #openai #vllm #llm #selfhosted #inference

#inference #selfhosted #llm #vllm #openai #openai_api

Habr @[email protected] · 2026-04-21 · 04:22 UTC

Как мы научили ИИ подбирать мебель по архитектурным чертежам

В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

https://habr.com/ru/articles/1025848/

#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json

#json #парсинг #каталог #чертеж #pdf #yolo

Adam :redhat: :ansible: :bash: @maxamillion · 2026-04-20 · 02:27 UTC

pip install vllm: The iceberg under a single command

https://developers.redhat.com/articles/2026/04/16/pip-install-vllm-single-command#

#Python #RedHat #vLLM #OpenSource #Linux #Pytorch #AI

#python #redhat #vllm #opensource #linux #pytorch

Habr @[email protected] · 2026-04-19 · 12:12 UTC

ИИ Анализ новостного сентимента как торговый сигнал

🧠ИИ анализ новостного сентимента как источник торгового сигнала 🐻🔄🐂 Рынок меняет тренд с бычего на медвежий несколько раз в день - это обусловлено новостными настроениями, а не историей цен. Индикаторы не работают Используем изменение настроений в соцсетях как торговый сигнал

https://habr.com/ru/articles/1025238/

#сезон_ии_в_разработке #gptoss20b #vllm #llm #новости #исскуственный_интеллект #машинное+обучение #бизнесалгоритмы #typescript #python

#python #typescript #бизнесалгоритмы #машинное #исскуственный_интеллект #новости

Rost Glukhov @[email protected] · 2026-04-16 · 14:03 UTC

Complete vLLM setup guide with Docker, OpenAI API compatibility, PagedAttention optimization. Compare vLLM vs Ollama vs Docker Model Runner for production.

#LLM #AI #Python #Docker #DevOps #Self-Hosting #vllm #K8S

https://www.glukhov.org/llm-hosting/vllm/vllm-quickstart/

#llm #ai #python #docker #devops #self

Adam :redhat: :ansible: :bash: @maxamillion · 2026-04-16 · 13:34 UTC

233% 3-year return on investment and 13 months to payback with Red Hat AI

https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai

#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM

#redhat #ai #redhatai #opensource #openshift #rhel

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-16 · 13:34 UTC

233% 3-year return on investment and 13 months to payback with Red Hat AI

https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai

#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM

#redhat #ai #redhatai #opensource #openshift #rhel

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-16 · 13:34 UTC

233% 3-year return on investment and 13 months to payback with Red Hat AI

https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai

#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM

#redhat #ai #redhatai #opensource #openshift #rhel

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-16 · 13:34 UTC

233% 3-year return on investment and 13 months to payback with Red Hat AI

https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai

#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM

#vllm #kubernetes #rhel #openshift #opensource #redhatai

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-16 · 13:34 UTC

233% 3-year return on investment and 13 months to payback with Red Hat AI

https://www.redhat.com/en/blog/233-3-year-return-investment-and-13-months-payback-red-hat-ai

#RedHat #AI #RedHatAI #OpenSource #OpenShift #RHEL #Kubernetes #vLLM

#redhat #ai #redhatai #opensource #openshift #rhel

Rost Glukhov @[email protected] · 2026-04-15 · 21:09 UTC

Choosing the best way to run LLMs locally? Compare Ollama, vLLM, TGI, SGLang, LM Studio, LocalAI and 8+ tools by API support, hardware compatibility, tool calling, and production readiness.

#LLM #AI #Ollama #vllm #Privacy #Open Source #Self-Hosting #Docker #API #Machine Learning #RAG

https://www.glukhov.org/llm-hosting/comparisons/hosting-llms-ollama-localai-jan-lmstudio-vllm-comparison/

#llm #ai #ollama #vllm #privacy #open

Rost Glukhov @[email protected] · 2026-04-14 · 10:14 UTC

Learn how to monitor LLM inference in production using Prometheus and Grafana. Track p95 latency, tokens/sec, queue duration, and KV cache usage across vLLM, TGI, and llama.cpp. Includes PromQL examples, dashboards, alerts, Docker & Kubernetes setups.

#Monitoring #Hosting #Self-Hosting #LLM #AI #DevOps #Docker #K8S #Prometheus #Grafana #observability #kubernetes #vllm

https://www.glukhov.org/observability/monitoring-llm-inference-prometheus-grafana/

#monitoring #hosting #self #llm #ai #devops

Rost Glukhov @[email protected] · 2026-04-12 · 22:37 UTC

Complete guide to LLM hosting in 2026. Compare Ollama, llama.cpp, vLLM, TGI, Docker Model Runner, LocalAI and cloud providers. Learn cost, performance, and infrastructure trade-offs.

#AI #LLM #hosting #Self-Hosting #ollama #llama.cpp #vllm #infrastructure

https://www.glukhov.org/llm-hosting/

#ai #llm #hosting #self #ollama #llama

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-10 · 18:17 UTC

Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B

https://www.redhat.com/en/blog/red-hat-ai-tops-mlperf-inference-v60-vllm-qwen3-vl-whisper-and-gpt-oss-120b

#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM

#redhat #rhel #openshift #ai #rhai #rhelai

Adam :redhat: :ansible: :bash: @maxamillion · 2026-04-10 · 18:17 UTC

Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B

https://www.redhat.com/en/blog/red-hat-ai-tops-mlperf-inference-v60-vllm-qwen3-vl-whisper-and-gpt-oss-120b

#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM

#redhat #rhel #openshift #ai #rhai #rhelai

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-10 · 18:17 UTC

Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B

https://www.redhat.com/en/blog/red-hat-ai-tops-mlperf-inference-v60-vllm-qwen3-vl-whisper-and-gpt-oss-120b

#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM

#redhat #rhel #openshift #ai #rhai #rhelai

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-10 · 18:17 UTC

Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B

https://www.redhat.com/en/blog/red-hat-ai-tops-mlperf-inference-v60-vllm-qwen3-vl-whisper-and-gpt-oss-120b

#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM

#vllm #linux #opensource #openshiftai #rhelai #rhai

Adam :redhat: :ansible: :bash: @[email protected] · 2026-04-10 · 18:17 UTC

Red Hat AI tops MLPerf Inference v6.0 with vLLM on Qwen3-VL, Whisper, and GPT-OSS-120B

https://www.redhat.com/en/blog/red-hat-ai-tops-mlperf-inference-v60-vllm-qwen3-vl-whisper-and-gpt-oss-120b

#RedHat #RHEL #OpenShift #AI #RHAI #RHELAI #OpenShiftAI #OpenSource #Linux #vLLM

#redhat #rhel #openshift #ai #rhai #rhelai

Habr @[email protected] · 2026-04-10 · 11:22 UTC

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

#prefix_caching #vllm #attention #prompt_caching #kvcache #transformers

ServerMO @[email protected] · 2026-04-10 · 08:07 UTC

Cut the AI marketing hype. Hardware sets the speed limit, but your infrastructure determines how fast you drive.

Our latest engineering blueprint breaks down the production realities of LLM serving:
✅ PCIe vs NVLink for Tensor Parallelism
✅ Fixing H100 thermal throttling & NVMe bottlenecks
✅ Production vLLM Docker tuning (Prefix Caching, FP8, IPC)
✅ Bare Metal ROI vs Cloud Virtualization Tax

Read the guide:
🔗 https://www.servermo.com/howto/vllm-multi-gpu-setup/

#MLOps #vLLM #LLM #AI #NVIDIA #DevOps #BareMetal

#mlops #vllm #llm #ai #nvidia #devops

Rost Glukhov @[email protected] · 2026-04-09 · 09:51 UTC

Learn how to deploy vLLM at scale on Kubernetes with PagedAttention, continuous batching, and tensor parallelism for high-throughput LLM inference. Covers multi-GPU, multi-node strategies and best practices.

#vLLM #Kubernetes #GPU #Large Language Models #Tensor Parallelism

https://dasroot.net/posts/2026/02/deploying-vllm-scale-kubernetes/

#vllm #kubernetes #gpu #large #tensor

Jeroen van 't Ende @[email protected] · 2026-04-01 · 21:52 UTC

#selfhosting can be daunting at first, it involves a few steps:

0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenas

Once you get the hang of this process, it gets really easy to spin up new services.

#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai

#selfhosting #letsencrypt #nginx_proxy_manager #truenas #immich #dawarich

Jeroen van 't Ende @[email protected] · 2026-04-01 · 21:52 UTC

#selfhosting can be daunting at first, it involves a few steps:

0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenas

Once you get the hang of this process, it gets really easy to spin up new services.

#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai

#selfhosting #letsencrypt #nginx_proxy_manager #truenas #immich #dawarich

Jeroen van 't Ende @[email protected] · 2026-04-01 · 21:52 UTC

#selfhosting can be daunting at first, it involves a few steps:

0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenas

Once you get the hang of this process, it gets really easy to spin up new services.

#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai

#vllm #ollama #dawarich #immich #truenas #nginx_proxy_manager

Jeroen van 't Ende @[email protected] · 2026-04-01 · 21:52 UTC

#selfhosting can be daunting at first, it involves a few steps:

0. obtain a domain name
1. sign certificates to prevent MITM and create trust with for example #letsencrypt
2. understand the process of proxying connections and hosts, #nginx_proxy_manager
3. host your applications in a maintainable way with for example #truenas

Once you get the hang of this process, it gets really easy to spin up new services.

#immich for google photos
#dawarich for google timeline
#ollama or #vllm for openai

#selfhosting #letsencrypt #nginx_proxy_manager #truenas #immich #dawarich

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016734/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016732/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016734/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016732/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.

https://habr.com/ru/articles/1006202/

#KimiK25 #DeepSeekv32 #GLM5 #Qwen35 #vllm #B200 #H200

#h200 #b200 #vllm #qwen35 #glm5 #deepseekv32

deepseek @[email protected] · 2026-03-04 · 07:10 UTC

Из коробки не работает: запускаем свежие большие LLM В последнее время открытых моделей сверхбольшого разме...

#Kimi-K2.5 #DeepSeek-v3.2 #GLM-5 #Qwen3.5 #vllm #B200

Origin | Interest | Match

#kimik25 #deepseekv32 #glm5 #qwen35 #vllm #b200

TechLİfe @[email protected] · 2026-02-16 · 06:05 UTC

The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works

https://techlife.blog/posts/llm-inference-optimization/

#LLM #Inference #PagedAttention #vLLM #FlashAttention #SpeculativeDecoding #MachineLearning #GPUOptimization #KVCache

#llm #inference #pagedattention #vllm #flashattention #speculativedecoding

Rost Glukhov @[email protected] · 2026-01-21 · 09:14 UTC

Best Open-Source LLMs You Can Run on 16 GB VRAM (As of 2026):
https://dasroot.net/posts/2026/01/best-open-source-llms-16gb-vram-2026/
#LLM #vLLM #Mixture-of-Experts #GPU #inference

#llm #vllm #mixture #gpu #inference

Hacker News @[email protected] · 2026-01-14 · 01:07 UTC

vLLM large scale serving: DeepSeek 2.2k tok/s/h200 with wide-ep

https://blog.vllm.ai/2025/12/17/large-scale-serving.html

#HackerNews #vLLM #large #scale #serving #DeepSeek #tok/s #wide-ep #AI #technology

#hackernews #vllm #large #scale #serving #deepseek

Habr @[email protected] · 2026-01-12 · 11:42 UTC

[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

https://habr.com/ru/companies/otus/articles/984434/

#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса

#планировщик_инференса #фрагментация_памяти #prefix_caching #pagedattention #vllm #инференс_llm

Reddit Tech VN Bot @[email protected] · 2026-01-08 · 17:22 UTC

Người dùng đang tìm cách triển khai suy luận cục bộ cho mô hình lớn Qwen2.5-72B trên 2 GPU L40 (48GB VRAM mỗi chiếc) nhưng gặp trở ngại. Khi dùng Huggingface, quá trình bị treo, còn vLLM thì báo lỗi khởi tạo WorkerProc. Anh ấy đang tìm kiếm các gợi ý để giải quyết vấn đề phân chia mô hình và tăng tốc suy luận trên hệ thống đa GPU.
#LLM #AITech #vLLM #Huggingface #LocalInference #GPUComputing #Qwen2_5_72B

https://www.reddit.com/r/LocalLLaMA/comments/1q7gr9w/local_inference_with_big_model_shared_

#llm #aitech #vllm #huggingface #localinference #gpucomputing

Reddit Tech VN Bot @[email protected] · 2026-01-07 · 18:22 UTC

Một phương pháp lặp lại trong thiết kế web:
- vLLM mô tả thiết kế → Coder sinh mã → Tự động chụp màn hình → So sánh kết quả với thiết kế → Lặp đến khi khớp. Công cụ đề xuất: LM Studio, Qwen3 VL, Qwen Coder. Yêu cầu: Ưu tiên builder luồng trực quan hỗ trợ chụp màn hình giữa luồng (không dùng Langflow).

#AI #MãHóa #WebDev #LLM #TựĐộng #Coding #ThiếtKếWeb #vLLM #QwenCoder

https://www.reddit.com/r/LocalLLaMA/comments/1q6lq21/coder_loops_until_it_looks_like_in_the_design/

#ai #mahoa #webdev #llm #tựdộng #coding