home.social

#benchmarks — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #benchmarks, aggregated by home.social.

  1. Garmin: New update brings over a dozen refinements to mid-range smartwatch with battery life estimate improvements

    Additionally, the arrival of Beta 17.25 coincides with Garmin Connect Mobile receiving additional translations via a v3.90…
    #NewsBeep #News #Gadgets #benchmarks #Beta17.25 #CA #Canada #Garmin #GarminVenu #garminvenu4 #graphicscard #laptop #netbook #notebook #processor #reports #review #reviews #smartwatch #Technology #test #tests #Venu4 #wearable
    newsbeep.com/ca/668190/

  2. via #LLRX Hallucinations” by West & Lexis AI? 24 Apr 2026. Michael Berman addresses #benchmarks used for #AI #legalresearch platforms in the context of the #risk of #hallucinations in retrieval-augmented generation #RAG AI #outputs. As Berman states, #verification, of course, is not only good advice, but also an #ethicalBusiness mandate. llrx.com/2026/04/hallucination

  3. Inspired by @jonhoo's `brrr` I wrote #SIMD splitting iterator which seem to work. Now, I'm not sure if I should be proud of myself, or sad I reinvented the wheel...

    For those interested: it has limitation to byte slices, but it's correct for #unaligned data (subject to future optimisations); uses nightly.

    Now it needs #benchmarks

    #rust #iterator #reinvented

  4. Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

    DeepSeek V4 Pro вышел 24 апреля. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Я ждал Tier S — 95+ из 100 в нашем battle test на русском контенте. Получил 89. Запустил его собственный Flash — 83. Pro выше на 6 пунктов, но в 13 раз дороже. Перетестировал Qwen 3.6 Plus, который вышел на 22 дня раньше V4 Pro: 92 балла. Старый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене. В статье: парадокс Pro vs Flash с экономикой production, гипотезы почему reasoning-оптимизация не вытягивает narrative, обновления методологии (max_tokens, paid re-test), формула score-per-dollar и обновлённые рекомендации.

    habr.com/ru/articles/1029044/

    #LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian_NLP

  5. Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

    DeepSeek V4 Pro вышел 24 апреля. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Я ждал Tier S — 95+ из 100 в нашем battle test на русском контенте. Получил 89. Запустил его собственный Flash — 83. Pro выше на 6 пунктов, но в 13 раз дороже. Перетестировал Qwen 3.6 Plus, который вышел на 22 дня раньше V4 Pro: 92 балла. Старый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене. В статье: парадокс Pro vs Flash с экономикой production, гипотезы почему reasoning-оптимизация не вытягивает narrative, обновления методологии (max_tokens, paid re-test), формула score-per-dollar и обновлённые рекомендации.

    habr.com/ru/articles/1029044/

    #LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian_NLP

  6. Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой DeepSeek V4 Pro вышел 24 апреля. Огром...

    #LLM #DeepSeek #Qwen #Kimi #Benchmarks #AI #OpenRouter #Russian #NLP

    Origin | Interest | Match
  7. Stanford’s AI Index 2026: China’s Surge Challenges U.S. Supremacy in Model Performance Stanford's 2026 AI Index reveals China narrowing the U.S. AI model performance gap to 2.7% despite 23x...

    #AITrends #ChinaRevolutionUpdate #AI #adoption #AI #benchmarks #AI #governance #AI #Investment #AI

    Origin | Interest | Match
  8. Noch vor dem Release am 22. April sind #Benchmarks zum #Ryzen 9 #9950X3D2 von #AMD aufgetaucht. Die Tests zeigen, dass eine gute #Kühlung unverzichtbar ist, damit der #Prozessor sein Potenzial abrufen kann. winfuture.de/news,158139.html?

  9. Ah, the classic tale of "I read the source code, so now I'm a UV master" 🤓. This riveting 21-minute epic attempts to dazzle us with #Rust and #concurrency, but let's be real—it's just a hipster's #guide to reinventing the wheel with extra steps 🚴‍♂️✨. If only life were as fast as these #benchmarks claim! 🐢💨
    noos.blog/posts/uv-how-it-work #UVmaster #hipster #codinghumor #HackerNews #ngated

  10. Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

    GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц. Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей. Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100. В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.

    habr.com/ru/articles/1021388/

    #LLM #Benchmarks #AI #OpenRouter #Claude #GPT #Qwen #Quality_Assessment #NLP