home.social

#tensorrt — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tensorrt, aggregated by home.social.

  1. New research shows TensorRT Edge‑LLM can run chain‑of‑thought reasoning directly on devices, boosting physical AI tasks like autonomous‑vehicle perception and MATH500 benchmarks. Efficient, on‑device inference means smarter, safer robots without cloud latency. Dive into the details of this breakthrough for on‑device language models. #TensorRT #EdgeLLM #ChainOfThought #PhysicalAI

    🔗 aidailypost.com/news/tensorrt-

  2. New SemiAnalysis InferenceX Data Shows NVIDIA Blackwell Ultra Delivers up to 50x Better Performance and 35x Lower Costs for Agentic AI

    The NVIDIA Blackwell platform has been widely adopted by leading inference providers such as Baseten, DeepInfra, Fireworks AI…
    #NewsBeep #News #Artificialintelligence #agenticai #AI #ArtificialIntelligence #AU #Australia #Dynamo #inference #NvidiaBlackwell #NVIDIARubin #NVLink #Technology #TensorRT #ThinkSMART
    newsbeep.com/au/486156/

  3. Leading Inference Providers Cut AI Costs by up to 10x With Open Source Models on NVIDIA Blackwell

    A diagnostic insight in healthcare. A character’s dialogue in an interactive game. An autonomous resolution from a customer…
    #NewsBeep #News #US #USA #UnitedStates #UnitedStatesOfAmerica #Artificialintelligence #agenticAI #AI #ArtificialIntelligence #Dynamo #inference #NVIDIABlackwell #OpenSource #Technology #TensorRT #ThinkSMART
    newsbeep.com/us/470300/

  4. Leading Inference Providers Cut AI Costs by up to 10x With Open Source Models on NVIDIA Blackwell

    A diagnostic insight in healthcare. A character’s dialogue in an interactive game. An autonomous resolution from a customer…
    #NewsBeep #News #US #USA #UnitedStates #UnitedStatesOfAmerica #Artificialintelligence #agenticAI #AI #ArtificialIntelligence #Dynamo #inference #NVIDIABlackwell #OpenSource #Technology #TensorRT #ThinkSMART
    newsbeep.com/us/470300/

  5. Habe nun seit einer Woche ein vollständig lokales Setup mit #Homeassistant #Voice am laufen.
    #Whisper large v3 und #LLM läuft auf einem Jetson Orin AGX. Allerdings bin ich mit der Geschwindigkeit von #ollama noch nicht zufrieden. Ich muss mal #vllm oder #tensorRT-llm testen. Kann aber auch am Modell #gpt-oss:20b liegen, wobei das zumindest uneindeutige Anfragen gut interpretiert. Aber alles über 10 Sekunden Wartezeit ist zu lang.
    Whisper versteht leider auch Frauenstimmen nicht 100% zuverlässig

  6. Под капотом современных AI-систем: разбираем железо

    Как объединить по сети вычислители? Что происходит при компиляции кода для железа под капотом и какие есть нюансы при работе с AI в пространстве ядра? ИИ с ноги ворвался во все сферы разработки, работы — вагон и маленькая тележка. Но на чём и как она должна ехать? У каждой программы есть свои требования, универсальных советов нет. О новых решениях можно будет узнать на конференции

    habr.com/ru/companies/oleg-bun

    #разработка #конференция #ии #ai #компиляторы #rust #tensorrt #нейросети #архитектура #архитектура_приложений

  7. Эффективный инференс множества LoRA адаптеров

    LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

    habr.com/ru/articles/922290/

    #multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

  8. Эффективный инференс множества LoRA адаптеров

    LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

    habr.com/ru/articles/922290/

    #multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

  9. Эффективный инференс множества LoRA адаптеров

    LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

    habr.com/ru/articles/922290/

    #multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

  10. Эффективный инференс множества LoRA адаптеров

    LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

    habr.com/ru/articles/922290/

    #multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

  11. Как просто добавить ИИ в приложения на Rust: универсальный опенсорсный инструмент

    Системный разработчик ИТ-компании «Криптонит» написал статью про новый инструмент на Rust, который облегчает запуск моделей машинного обучения и их внедрение в приложения. Дальше публикуем текст от первого лица. Статья написана по материалам выступления Михаила на RustCon 2024. Посмотреть видеозапись доклада можно в VK Видео .

    habr.com/ru/companies/kryptoni

    #rust #библиотека #машинное_обучение #ml #модели #triton #deepstream #tensorrt #cuda #ии

  12. Fitting an LLM on a GPU is a bit like photography. Model weights = film sensitivity, activation size = shutter speed, I/O tensors = aperture. These 3 dials control your model's memory footprint, just as they shape a photo's exposure.

    Just realised this while trying to fit Llama 3.1 on my 24GB GPU with TRT-LLM: nvidia.github.io/TensorRT-LLM/.

  13. Fitting an LLM on a GPU is a bit like photography. Model weights = film sensitivity, activation size = shutter speed, I/O tensors = aperture. These 3 dials control your model's memory footprint, just as they shape a photo's exposure.

    Just realised this while trying to fit Llama 3.1 on my 24GB GPU with TRT-LLM: nvidia.github.io/TensorRT-LLM/.

    #llms #genai #llama #gpu #nvidia #trtllm #tensorrt

  14. Fitting an LLM on a GPU is a bit like photography. Model weights = film sensitivity, activation size = shutter speed, I/O tensors = aperture. These 3 dials control your model's memory footprint, just as they shape a photo's exposure.

    Just realised this while trying to fit Llama 3.1 on my 24GB GPU with TRT-LLM: nvidia.github.io/TensorRT-LLM/.

    #llms #genai #llama #gpu #nvidia #trtllm #tensorrt

  15. Fitting an LLM on a GPU is a bit like photography. Model weights = film sensitivity, activation size = shutter speed, I/O tensors = aperture. These 3 dials control your model's memory footprint, just as they shape a photo's exposure.

    Just realised this while trying to fit Llama 3.1 on my 24GB GPU with TRT-LLM: nvidia.github.io/TensorRT-LLM/.

    #llms #genai #llama #gpu #nvidia #trtllm #tensorrt

  16. Fitting an LLM on a GPU is a bit like photography. Model weights = film sensitivity, activation size = shutter speed, I/O tensors = aperture. These 3 dials control your model's memory footprint, just as they shape a photo's exposure.

    Just realised this while trying to fit Llama 3.1 on my 24GB GPU with TRT-LLM: nvidia.github.io/TensorRT-LLM/.

    #llms #genai #llama #gpu #nvidia #trtllm #tensorrt

  17. Many companies are currently scrambling for ML infra engineers. They need people that know how to manage AI infrastructure, and that can seriously speed up training and inference with specialized tooling like vLLM, Triton, TensorRT, Torchtune, etc.

  18. Note to self: #NVIDIA have an open-source inference server for machine learning models. (They mostly sell SaaS on top of it)

    Supports #TensorFlow, #PyTorch, #ONNX, #TensorRT, #mxnet.

    Runs on #k8s. Features queue control, monitoring.

    Triton Inference Server github.com/triton-inference-se

  19. Why does #Nvidia #TensorRT have four different installation methods? Two of which will mess up your system in different extremely-hard-to-fix ways, one which won't work on any SRU distribution, and only one that works at all? It's like they are trying to make it as hard as possible to install.

    stackoverflow.com/questions/75

    github.com/NVIDIA/TensorRT/iss