#deepseekv32 — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-04 · 07:22 UTC

Из коробки не работает: запускаем свежие большие LLM

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным. Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь. В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь. Итак, поехали.

https://habr.com/ru/articles/1006202/

#KimiK25 #DeepSeekv32 #GLM5 #Qwen35 #vllm #B200 #H200

#h200 #b200 #vllm #qwen35 #glm5 #deepseekv32

deepseek @[email protected] · 2026-03-04 · 07:10 UTC

Из коробки не работает: запускаем свежие большие LLM В последнее время открытых моделей сверхбольшого разме...

#Kimi-K2.5 #DeepSeek-v3.2 #GLM-5 #Qwen3.5 #vllm #B200

Origin | Interest | Match

#kimik25 #deepseekv32 #glm5 #qwen35 #vllm #b200

AI Daily Post @[email protected] · 2025-12-03 · 00:40 UTC

DeepSeek V3.2 pushes open‑source LLMs forward with strong synthesis, ready‑to‑use formatting cues and geographic logic. Its sparse attention unlocks long‑context and tool‑use reasoning, making it a versatile choice for developers. Dive into the details on Analytics Vidhya. #DeepSeekV32 #OpenSourceLLM #SparseAttention #LongContext

🔗 https://aidailypost.com/news/deepseek-v32-shows-strong-synthesis-readytouse-formatting-opensource

#deepseekv32 #opensourcellm #sparseattention #longcontext

AI Daily Post @[email protected] · 2025-11-08 · 19:36 UTC

Moonshot AI’s Kimi K2 Thinking just hit 71.3% on the SWE‑Bench, outpacing GPT‑5, Claude Sonnet 4.5 and Deepseek‑V3.2. This open‑source milestone shows how far community‑driven models have come in handling HTML, React and real‑world coding tasks. Dive into the details and see why K2 is setting a new bar for AI coding assistants. #MoonshotAI #KimiK2Thinking #SWEbench #DeepseekV32

🔗 https://aidailypost.com/news/moonshot-ais-kimi-k2-thinking-scores-713-swebench-beating-leading

#moonshotai #kimik2thinking #swebench #deepseekv32