home.social

#tensorrt — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tensorrt, aggregated by home.social.

  1. New research shows TensorRT Edge‑LLM can run chain‑of‑thought reasoning directly on devices, boosting physical AI tasks like autonomous‑vehicle perception and MATH500 benchmarks. Efficient, on‑device inference means smarter, safer robots without cloud latency. Dive into the details of this breakthrough for on‑device language models. #TensorRT #EdgeLLM #ChainOfThought #PhysicalAI

    🔗 aidailypost.com/news/tensorrt-

  2. Эффективный инференс множества LoRA адаптеров

    LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

    habr.com/ru/articles/922290/

    #multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora