home.social

#swebench — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #swebench, aggregated by home.social.

  1. 🍪🔒 Oh wow, an article trying to explain why SWE-bench Verified doesn't measure cutting-edge coding skills, but all it tells you is to enable #JavaScript and #cookies. Groundbreaking insight! 🧠✨ Clearly, the future of coding depends on cookie consent. 🍪💡
    openai.com/index/why-we-no-lon #SWEbench #CookieConsent #CodingSkills #GroundbreakingInsight #HackerNews #ngated

  2. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  3. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США? DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), ...

    #DeepSeek #V4 #mixture #of #experts #open #source #LLM #frontier #модели #SWE-bench

    Origin | Interest | Match
  4. Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

    В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зависимости, дебажат по логам и могут довести задачу до рабочего состояния почти без участия разработчика. Но на практике всё не так однозначно — один агент хорошо чинит баги, но ломает архитектуру, другой уверенно пишет на Python, но теряется в TypeScript. Чтобы разобраться, кто из них реально помогает в разработке, а кто только выглядит убедительно, мы прогнали популярные решения через собственный приватный бенчмарк с задачами на 15+ языках. Меня зовут Ильнур Файзиев, я руковожу юнитом Data LLM в

    habr.com/ru/companies/doubleta

    #codex #cursor #claude_code #swebench #ai #aiассистент #ai_agent #gpt53_codex #opus #sonnet

  5. Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

    Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

    habr.com/ru/articles/1003130/

    #нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

  6. Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI

    🔗 aidailypost.com/news/anthropic

  7. Opus 4.5 vừa lấy lại vị trí #1 trên bảng xếp hạng SWE-bench, nhưng với cách biệt rất nhỏ so với Gemini 3 (chỉ 0.2%). Opus 4.5 vẫn đắt hơn các mô hình khác đạt điểm cao. Cần đặt giới hạn bước (step limit) tối thiểu 100 để đạt hiệu suất tối đa.

    #LLM #AI #Opus45 #Gemini3 #SWEbench #Vietnamese #tritue #congnghe

    reddit.com/r/LocalLLaMA/commen

  8. 📢 Don't overlook this in the wave of releases! #MistralAI has a new coding LLM: it's #Devstral, an open model perfect for on-prem, private and local deployments 🐈

    📰 Have a look at the announcement: mistral.ai/news/devstral

    #AI #GenAI #LLMs #Devstral #SWEBench

  9. #Devstral: New #opensource Model for Coding Agents by #MistralAI & #AllHandsAI 🧠

    • 🏆 #Devstral achieves 46.8% on #SWEBench Verified, outperforming previous #opensource models by over 6% points and surpassing #GPT4 mini by 20%

    🧵👇#AI #coding

  10. [Перевод] Сравнение бенчмарков LLM для разработки программного обеспечения

    В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

    habr.com/ru/articles/857754/

    #LLM #бенчмарки #бенчмаркинг #HumanEval #DevQualityEval #CodeXGLUE #Aider #SWEbench #ClassEval #BigCodeBench

  11. 🚀 #Claude35Sonnet is now rolling out on #GitHubCopilot, bringing advanced coding capabilities directly to #VisualStudioCode and GitHub.com

    • 🏆 Performance highlights:
    - Highest score among public models on #SWEbench Verified
    - 93.7% accuracy on #HumanEval for #Python function writing

    • 💻 Key features:
    - Production-ready code generation
    - Inline debugging assistance
    - Automated test suite creation
    - Contextual code explanations

    • ⚙️ Technical details:
    - Runs via #AmazonBedrock
    - Cross-region inference for enhanced reliability
    - Available to all #GitHub Copilot Chat users and organizations

    Source: anthropic.com/news/github-copi