#swebench — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #swebench, aggregated by home.social.
-
🍪🔒 Oh wow, an article trying to explain why SWE-bench Verified doesn't measure cutting-edge coding skills, but all it tells you is to enable #JavaScript and #cookies. Groundbreaking insight! 🧠✨ Clearly, the future of coding depends on cookie consent. 🍪💡
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ #SWEbench #CookieConsent #CodingSkills #GroundbreakingInsight #HackerNews #ngated -
Why SWE-bench Verified no longer measures frontier coding capabilities
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
#HackerNews #SWEbench #CodingCapabilities #FrontierTech #SoftwareEngineering #TechTrends
-
[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.
https://habr.com/ru/articles/1028032/
#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса
-
Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor
В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зависимости, дебажат по логам и могут довести задачу до рабочего состояния почти без участия разработчика. Но на практике всё не так однозначно — один агент хорошо чинит баги, но ломает архитектуру, другой уверенно пишет на Python, но теряется в TypeScript. Чтобы разобраться, кто из них реально помогает в разработке, а кто только выглядит убедительно, мы прогнали популярные решения через собственный приватный бенчмарк с задачами на 15+ языках. Меня зовут Ильнур Файзиев, я руковожу юнитом Data LLM в
https://habr.com/ru/companies/doubletapp/articles/1014646/
#codex #cursor #claude_code #swebench #ai #aiассистент #ai_agent #gpt53_codex #opus #sonnet
-
Many SWE-bench-Passing PRs would not be merged
https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/
#HackerNews #SWEbench #PRs #SoftwareEngineering #CodeQuality #DevelopmentInsights
-
Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»
Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".
https://habr.com/ru/articles/1003130/
#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ
-
Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI
🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus
-
Opus 4.5 vừa lấy lại vị trí #1 trên bảng xếp hạng SWE-bench, nhưng với cách biệt rất nhỏ so với Gemini 3 (chỉ 0.2%). Opus 4.5 vẫn đắt hơn các mô hình khác đạt điểm cao. Cần đặt giới hạn bước (step limit) tối thiểu 100 để đạt hiệu suất tối đa.
#LLM #AI #Opus45 #Gemini3 #SWEbench #Vietnamese #tritue #congnghe
https://www.reddit.com/r/LocalLLaMA/comments/1p5wjia/opus_45_only_narrowly_reclaims_1_on_official/
-
Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop
#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers
-
Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop
#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers
-
Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop
#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers
-
📢 Don't overlook this in the wave of releases! #MistralAI has a new coding LLM: it's #Devstral, an open model perfect for on-prem, private and local deployments 🐈
📰 Have a look at the announcement: https://mistral.ai/news/devstral
-
#Devstral: New #opensource Model for Coding Agents by #MistralAI & #AllHandsAI 🧠
• 🏆 #Devstral achieves 46.8% on #SWEBench Verified, outperforming previous #opensource models by over 6% points and surpassing #GPT4 mini by 20%
-
[Перевод] Сравнение бенчмарков LLM для разработки программного обеспечения
В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.
https://habr.com/ru/articles/857754/
#LLM #бенчмарки #бенчмаркинг #HumanEval #DevQualityEval #CodeXGLUE #Aider #SWEbench #ClassEval #BigCodeBench
-
🚀 #Claude35Sonnet is now rolling out on #GitHubCopilot, bringing advanced coding capabilities directly to #VisualStudioCode and https://GitHub.com
• 🏆 Performance highlights:
- Highest score among public models on #SWEbench Verified
- 93.7% accuracy on #HumanEval for #Python function writing• 💻 Key features:
- Production-ready code generation
- Inline debugging assistance
- Automated test suite creation
- Contextual code explanations• ⚙️ Technical details:
- Runs via #AmazonBedrock
- Cross-region inference for enhanced reliability
- Available to all #GitHub Copilot Chat users and organizations