#russian_nlp — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #russian_nlp, aggregated by home.social.

Habr @[email protected] · 2026-04-28 · 10:52 UTC

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой
DeepSeek V4 Pro вышел 24 апреля. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Я ждал Tier S — 95+ из 100 в нашем battle test на русском контенте. Получил 89. Запустил его собственный Flash — 83. Pro выше на 6 пунктов, но в 13 раз дороже. Перетестировал Qwen 3.6 Plus, который вышел на 22 дня раньше V4 Pro: 92 балла. Старый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене. В статье: парадокс Pro vs Flash с экономикой production, гипотезы почему reasoning-оптимизация не вытягивает narrative, обновления методологии (max_tokens, paid re-test), формула score-per-dollar и обновлённые рекомендации.
https://habr.com/ru/articles/1029044/
#LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian_NLP

#russian_nlp #openrouter #ai #benchmarks #kimi #qwen
Habr @[email protected] · 2026-04-28 · 10:52 UTC

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой
DeepSeek V4 Pro вышел 24 апреля. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Я ждал Tier S — 95+ из 100 в нашем battle test на русском контенте. Получил 89. Запустил его собственный Flash — 83. Pro выше на 6 пунктов, но в 13 раз дороже. Перетестировал Qwen 3.6 Plus, который вышел на 22 дня раньше V4 Pro: 92 балла. Старый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене. В статье: парадокс Pro vs Flash с экономикой production, гипотезы почему reasoning-оптимизация не вытягивает narrative, обновления методологии (max_tokens, paid re-test), формула score-per-dollar и обновлённые рекомендации.
https://habr.com/ru/articles/1029044/
#LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian_NLP

#russian_nlp #openrouter #ai #benchmarks #kimi #qwen