#tensorrt — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #tensorrt, aggregated by home.social.
-
ComfyUIをTensorRTで爆速化!LoRAもAnima2Bも自由に使えるカスタムノード『ComfyUI-TensorRT-Reforge』を作ってみた
https://qiita.com/zaochuan5854/items/f7b625bb9df5f4742b61?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items -
ComfyUIをTensorRTで爆速化!LoRAもAnima2Bも自由に使えるカスタムノード『ComfyUI-TensorRT-Reforge』を作ってみた
https://qiita.com/zaochuan5854/items/f7b625bb9df5f4742b61?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items -
New research shows TensorRT Edge‑LLM can run chain‑of‑thought reasoning directly on devices, boosting physical AI tasks like autonomous‑vehicle perception and MATH500 benchmarks. Efficient, on‑device inference means smarter, safer robots without cloud latency. Dive into the details of this breakthrough for on‑device language models. #TensorRT #EdgeLLM #ChainOfThought #PhysicalAI
🔗 https://aidailypost.com/news/tensorrt-edgellm-enables-efficient-chainofthought-processing-physical
-
Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.
https://habr.com/ru/articles/922290/
#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora