#mamba2 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mamba2, aggregated by home.social.
-
Средние модели, большие надежды: испытываем гибридные LLM
Привет, я Дмитрий, занимаюсь развитием LLMaaS. Перед нашей командой встала задача подбора «средней» языковой модели с примерно 9B параметров для обслуживания клиентских задач: оперативные чат-боты, саммаризация документов, генерация кода и аналитика на длинных контекстах. В таких сценариях критичны не только качество ответов, но и скорость, и стоимость инференса — ведь модель должна работать на одном GPU и при этом выдерживать заданный поток запросов. Классические подходы — взять проверенную плотную модель вроде Llama 3.1 8B — дают неплохое качество, но упираются в память из-за тяжеловесного KV-кеша. Поэтому мы обратили внимание на гибридные архитектуры, где традиционное внимание чередуется с более экономичными механизмами: Mamba-2, Gated DeltaNet. Такие модели обещают радикально снизить расход памяти и увеличить пропускную способность без потери качества. Мы выделили три перспективные открытые модели этого класса: NVIDIA Nemotron-Nano 9B v2, Bamba-9B-v2 (IBM) и Qwen3.5 9B (Alibaba), и сравнили их с классической Llama 3.1 8B. Моделирование проводилось для одного ускорителя NVIDIA H200 (141 ГБ) при типичной нагрузке: 4096 входных токенов, до 256 выходных. Рассчитывались метрики: Instance VRAM (память на один экземпляр с учётом весов, оверхеда и KV-кеша), E2E Latency, RPS с реплики, требуемый объём памяти на один RPS (VRAM/RPS), а также максимальная параллельность по памяти. Детальные расчёты и формулы мы ранее верифицировали с помощью собственного форка [InferSim]( https://habr.com/ru/articles/1027358/ ) и публичных бенчмарков. Вот что получилось:
-
Средние модели, большие надежды: испытываем гибридные LLM
Привет, я Дмитрий, занимаюсь развитием LLMaaS. Перед нашей командой встала задача подбора «средней» языковой модели с примерно 9B параметров для обслуживания клиентских задач: оперативные чат-боты, саммаризация документов, генерация кода и аналитика на длинных контекстах. В таких сценариях критичны не только качество ответов, но и скорость, и стоимость инференса — ведь модель должна работать на одном GPU и при этом выдерживать заданный поток запросов. Классические подходы — взять проверенную плотную модель вроде Llama 3.1 8B — дают неплохое качество, но упираются в память из-за тяжеловесного KV-кеша. Поэтому мы обратили внимание на гибридные архитектуры, где традиционное внимание чередуется с более экономичными механизмами: Mamba-2, Gated DeltaNet. Такие модели обещают радикально снизить расход памяти и увеличить пропускную способность без потери качества. Мы выделили три перспективные открытые модели этого класса: NVIDIA Nemotron-Nano 9B v2, Bamba-9B-v2 (IBM) и Qwen3.5 9B (Alibaba), и сравнили их с классической Llama 3.1 8B. Моделирование проводилось для одного ускорителя NVIDIA H200 (141 ГБ) при типичной нагрузке: 4096 входных токенов, до 256 выходных. Рассчитывались метрики: Instance VRAM (память на один экземпляр с учётом весов, оверхеда и KV-кеша), E2E Latency, RPS с реплики, требуемый объём памяти на один RPS (VRAM/RPS), а также максимальная параллельность по памяти. Детальные расчёты и формулы мы ранее верифицировали с помощью собственного форка [InferSim]( https://habr.com/ru/articles/1027358/ ) и публичных бенчмарков. Вот что получилось:
-
Средние модели, большие надежды: испытываем гибридные LLM
Привет, я Дмитрий, занимаюсь развитием LLMaaS. Перед нашей командой встала задача подбора «средней» языковой модели с примерно 9B параметров для обслуживания клиентских задач: оперативные чат-боты, саммаризация документов, генерация кода и аналитика на длинных контекстах. В таких сценариях критичны не только качество ответов, но и скорость, и стоимость инференса — ведь модель должна работать на одном GPU и при этом выдерживать заданный поток запросов. Классические подходы — взять проверенную плотную модель вроде Llama 3.1 8B — дают неплохое качество, но упираются в память из-за тяжеловесного KV-кеша. Поэтому мы обратили внимание на гибридные архитектуры, где традиционное внимание чередуется с более экономичными механизмами: Mamba-2, Gated DeltaNet. Такие модели обещают радикально снизить расход памяти и увеличить пропускную способность без потери качества. Мы выделили три перспективные открытые модели этого класса: NVIDIA Nemotron-Nano 9B v2, Bamba-9B-v2 (IBM) и Qwen3.5 9B (Alibaba), и сравнили их с классической Llama 3.1 8B. Моделирование проводилось для одного ускорителя NVIDIA H200 (141 ГБ) при типичной нагрузке: 4096 входных токенов, до 256 выходных. Рассчитывались метрики: Instance VRAM (память на один экземпляр с учётом весов, оверхеда и KV-кеша), E2E Latency, RPS с реплики, требуемый объём памяти на один RPS (VRAM/RPS), а также максимальная параллельность по памяти. Детальные расчёты и формулы мы ранее верифицировали с помощью собственного форка [InferSim]( https://habr.com/ru/articles/1027358/ ) и публичных бенчмарков. Вот что получилось:
-
Средние модели, большие надежды: испытываем гибридные LLM
Привет, я Дмитрий, занимаюсь развитием LLMaaS. Перед нашей командой встала задача подбора «средней» языковой модели с примерно 9B параметров для обслуживания клиентских задач: оперативные чат-боты, саммаризация документов, генерация кода и аналитика на длинных контекстах. В таких сценариях критичны не только качество ответов, но и скорость, и стоимость инференса — ведь модель должна работать на одном GPU и при этом выдерживать заданный поток запросов. Классические подходы — взять проверенную плотную модель вроде Llama 3.1 8B — дают неплохое качество, но упираются в память из-за тяжеловесного KV-кеша. Поэтому мы обратили внимание на гибридные архитектуры, где традиционное внимание чередуется с более экономичными механизмами: Mamba-2, Gated DeltaNet. Такие модели обещают радикально снизить расход памяти и увеличить пропускную способность без потери качества. Мы выделили три перспективные открытые модели этого класса: NVIDIA Nemotron-Nano 9B v2, Bamba-9B-v2 (IBM) и Qwen3.5 9B (Alibaba), и сравнили их с классической Llama 3.1 8B. Моделирование проводилось для одного ускорителя NVIDIA H200 (141 ГБ) при типичной нагрузке: 4096 входных токенов, до 256 выходных. Рассчитывались метрики: Instance VRAM (память на один экземпляр с учётом весов, оверхеда и KV-кеша), E2E Latency, RPS с реплики, требуемый объём памяти на один RPS (VRAM/RPS), а также максимальная параллельность по памяти. Детальные расчёты и формулы мы ранее верифицировали с помощью собственного форка [InferSim]( https://habr.com/ru/articles/1027358/ ) и публичных бенчмарков. Вот что получилось:
-
Apples neues KI-Modell verbessert Gesundheitsprognosen mit Verhaltensdaten aus Wearables
Neue Entwicklungen im Bereich der Künstlichen Intelligenz zeigen, dass Informationen über das Verhalten von Nut
https://www.apfeltalk.de/magazin/news/apples-neues-ki-modell-verbessert-gesundheitsprognosen-mit-verhaltensdaten-aus-wearables/
#KI #News #Apple #AppleHeartAndMovementStudy #AppleWatch #Gesundheitsdaten #Gesundheitsprognose #KI #KIModell #Mamba2 #PPG #Sensorik #Verhaltensmetriken #Wearables -
Apples neues KI-Modell verbessert Gesundheitsprognosen mit Verhaltensdaten aus Wearables
Neue Entwicklungen im Bereich der Künstlichen Intelligenz zeigen, dass Informationen über das Verhalten von Nut
https://www.apfeltalk.de/magazin/news/apples-neues-ki-modell-verbessert-gesundheitsprognosen-mit-verhaltensdaten-aus-wearables/
#KI #News #Apple #AppleHeartAndMovementStudy #AppleWatch #Gesundheitsdaten #Gesundheitsprognose #KI #KIModell #Mamba2 #PPG #Sensorik #Verhaltensmetriken #Wearables -
Apples neues KI-Modell verbessert Gesundheitsprognosen mit Verhaltensdaten aus Wearables
Neue Entwicklungen im Bereich der Künstlichen Intelligenz zeigen, dass Informationen über das Verhalten von Nut
https://www.apfeltalk.de/magazin/news/apples-neues-ki-modell-verbessert-gesundheitsprognosen-mit-verhaltensdaten-aus-wearables/
#KI #News #Apple #AppleHeartAndMovementStudy #AppleWatch #Gesundheitsdaten #Gesundheitsprognose #KI #KIModell #Mamba2 #PPG #Sensorik #Verhaltensmetriken #Wearables -
Apples neues KI-Modell verbessert Gesundheitsprognosen mit Verhaltensdaten aus Wearables
Neue Entwicklungen im Bereich der Künstlichen Intelligenz zeigen, dass Informationen über das Verhalten von Nut
https://www.apfeltalk.de/magazin/news/apples-neues-ki-modell-verbessert-gesundheitsprognosen-mit-verhaltensdaten-aus-wearables/
#KI #News #Apple #AppleHeartAndMovementStudy #AppleWatch #Gesundheitsdaten #Gesundheitsprognose #KI #KIModell #Mamba2 #PPG #Sensorik #Verhaltensmetriken #Wearables -
Apples neues KI-Modell verbessert Gesundheitsprognosen mit Verhaltensdaten aus Wearables
Neue Entwicklungen im Bereich der Künstlichen Intelligenz zeigen, dass Informationen über das Verhalten von Nut
https://www.apfeltalk.de/magazin/news/apples-neues-ki-modell-verbessert-gesundheitsprognosen-mit-verhaltensdaten-aus-wearables/
#KI #News #Apple #AppleHeartAndMovementStudy #AppleWatch #Gesundheitsdaten #Gesundheitsprognose #KI #KIModell #Mamba2 #PPG #Sensorik #Verhaltensmetriken #Wearables -
Novel IBM Bamba Hybrid AI Model Targets Speed Limits of Transformer Architecture
#AI #GenAI #Transformers #IBM #BambaAI #LLMs #AI #MachineLearning #DeepLearning #SSM #StateSpaceModel #Mamba2 #AIResearch #CMU #Princeton #UIUC #GraniteAI #AIEfficiency
https://winbuzzer.com/2025/04/29/ibm-bamba-hybrid-ai-targets-transformer-speed-limits-xcxwbn/
-
Novel IBM Bamba Hybrid AI Model Targets Speed Limits of Transformer Architecture
#AI #GenAI #Transformers #IBM #BambaAI #LLMs #AI #MachineLearning #DeepLearning #SSM #StateSpaceModel #Mamba2 #AIResearch #CMU #Princeton #UIUC #GraniteAI #AIEfficiency
https://winbuzzer.com/2025/04/29/ibm-bamba-hybrid-ai-targets-transformer-speed-limits-xcxwbn/
-
Novel IBM Bamba Hybrid AI Model Targets Speed Limits of Transformer Architecture
#AI #GenAI #Transformers #IBM #BambaAI #LLMs #AI #MachineLearning #DeepLearning #SSM #StateSpaceModel #Mamba2 #AIResearch #CMU #Princeton #UIUC #GraniteAI #AIEfficiency
https://winbuzzer.com/2025/04/29/ibm-bamba-hybrid-ai-targets-transformer-speed-limits-xcxwbn/
-
Novel IBM Bamba Hybrid AI Model Targets Speed Limits of Transformer Architecture
#AI #GenAI #Transformers #IBM #BambaAI #LLMs #AI #MachineLearning #DeepLearning #SSM #StateSpaceModel #Mamba2 #AIResearch #CMU #Princeton #UIUC #GraniteAI #AIEfficiency
https://winbuzzer.com/2025/04/29/ibm-bamba-hybrid-ai-targets-transformer-speed-limits-xcxwbn/
-
Novel IBM Bamba Hybrid AI Model Targets Speed Limits of Transformer Architecture
#AI #GenAI #Transformers #IBM #BambaAI #LLMs #AI #MachineLearning #DeepLearning #SSM #StateSpaceModel #Mamba2 #AIResearch #CMU #Princeton #UIUC #GraniteAI #AIEfficiency
https://winbuzzer.com/2025/04/29/ibm-bamba-hybrid-ai-targets-transformer-speed-limits-xcxwbn/