home.social

#kserve — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #kserve, aggregated by home.social.

  1. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  2. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  3. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  4. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  5. Red Hat and Tesla engineers tackled a real production problem together.

    3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

    This is what open source looks like. 🤝 🚀

    llm-d.ai/blog/production-grade

    #RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

  6. Red Hat and Tesla engineers tackled a real production problem together.

    3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

    This is what open source looks like. 🤝 🚀

    llm-d.ai/blog/production-grade

  7. Red Hat and Tesla engineers tackled a real production problem together.

    3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

    This is what open source looks like. 🤝 🚀

    llm-d.ai/blog/production-grade

    #RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

  8. Red Hat and Tesla engineers tackled a real production problem together.

    3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

    This is what open source looks like. 🤝 🚀

    llm-d.ai/blog/production-grade

    #RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

  9. Red Hat and Tesla engineers tackled a real production problem together.

    3x output tokens/sec, 2x faster TTFT on Llama 3.1 70B with KServe + llm-d + vLLM. Fixes pushed upstream to KServe along the way.

    This is what open source looks like. 🤝 🚀

    llm-d.ai/blog/production-grade

    #RedHat #Tesla #RedHatAI #vLLM #Pytorch #Kubernetes #OpenShift #KServe #llmd #Llama #OpenSource

  10. ML-пайплайны в Kubernetes: от первой строки кода до автоскейлинга и за его пределами

    Ваша ML-модель работает в ноутбуке, а в продакшене — нет. Бывало такое? Именно здесь начинается настоящая инженерная задача: взять эксперимент из Jupyter-ноутбука и превратить его в воспроизводимый, наблюдаемый и масштабируемый пайплайн — от сырых данных до стабильного инференса под реальной нагрузкой. Kubernetes давно стал де-факто стандартом для этой работы: более 70% компаний используют его в продакшене — это не дань хайпу, это прагматичный выбор тех, кто уже наступал на грабли. В этой статье разберем, почему K8s выигрывает у альтернатив именно для ML-нагрузок, а также обсудим какие мифы и анти-паттерны тормозят команды на пути к продакшену. Пройдемся по полному стеку: от подготовки кластера и фиксации данных через DVC до canary-деплоя модели и автоскейлинга GPU-подов. В конце вас ждет взгляд на то, куда движется индустрия: serverless-ML, multi-LLM-ops и edge-развертывания. Если вы DevOps- или MLOps-инженер, которому приходится запускать обучение и инференс в одном кластере, или R&D-инженер, чьи модели «магически ломаются» при переходе в прод — читать обязательно.

    habr.com/ru/companies/cloud_ru

    #Kubernetes #MLOps #ML_pipeline #KServe #TFX #DVC #HPA #Prometheus #Grafana #DevOps

  11. Big thanks to everyone contributing code, reviews, and ideas — this integration is shaping up to be a game-changer for 𝗞𝘂𝗯𝗲𝗿𝗻𝗲𝘁𝗲𝘀-𝗻𝗮𝘁𝗶𝘃𝗲 𝗟𝗟𝗠 𝘀𝗲𝗿𝘃𝗶𝗻𝗴. Stay tuned for next release!