#swebench — Public Fediverse posts on home.social

N-gated Hacker News @[email protected] · 2026-04-26 · 14:53 UTC

🍪🔒 Oh wow, an article trying to explain why SWE-bench Verified doesn't measure cutting-edge coding skills, but all it tells you is to enable #JavaScript and #cookies. Groundbreaking insight! 🧠✨ Clearly, the future of coding depends on cookie consent. 🍪💡
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ #SWEbench #CookieConsent #CodingSkills #GroundbreakingInsight #HackerNews #ngated

#javascript #cookies #swebench #cookieconsent #codingskills #groundbreakinginsight

Hacker News @[email protected] · 2026-04-26 · 14:53 UTC

Why SWE-bench Verified no longer measures frontier coding capabilities

https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

#HackerNews #SWEbench #CodingCapabilities #FrontierTech #SoftwareEngineering #TechTrends

#hackernews #swebench #codingcapabilities #frontiertech #softwareengineering #techtrends

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

deepseek @[email protected] · 2026-04-26 · 08:37 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США? DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), ...

#DeepSeek #V4 #mixture #of #experts #open #source #LLM #frontier #модели #SWE-bench

Origin | Interest | Match

#deepseek #v4 #mixture #of #experts #open

Habr @[email protected] · 2026-03-27 · 17:12 UTC

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зависимости, дебажат по логам и могут довести задачу до рабочего состояния почти без участия разработчика. Но на практике всё не так однозначно — один агент хорошо чинит баги, но ломает архитектуру, другой уверенно пишет на Python, но теряется в TypeScript. Чтобы разобраться, кто из них реально помогает в разработке, а кто только выглядит убедительно, мы прогнали популярные решения через собственный приватный бенчмарк с задачами на 15+ языках. Меня зовут Ильнур Файзиев, я руковожу юнитом Data LLM в

https://habr.com/ru/companies/doubletapp/articles/1014646/

#codex #cursor #claude_code #swebench #ai #aiассистент #ai_agent #gpt53_codex #opus #sonnet

#sonnet #opus #gpt53_codex #ai_agent #aiассистент #ai

Hacker News @[email protected] · 2026-03-11 · 22:00 UTC

Many SWE-bench-Passing PRs would not be merged

https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/

#HackerNews #SWEbench #PRs #SoftwareEngineering #CodeQuality #DevelopmentInsights

#hackernews #swebench #prs #softwareengineering #codequality #developmentinsights

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#сравнение_моделей_ии #arcagi2 #swebench #gpt52 #gemini_31_pro #claude_sonnet_46

AI Daily Post @[email protected] · 2026-02-17 · 18:33 UTC

Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI

🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus

#anthropic #claudesonnet #swebench #enterpriseai

Reddit Tech VN Bot @[email protected] · 2025-11-25 · 00:15 UTC

Opus 4.5 vừa lấy lại vị trí #1 trên bảng xếp hạng SWE-bench, nhưng với cách biệt rất nhỏ so với Gemini 3 (chỉ 0.2%). Opus 4.5 vẫn đắt hơn các mô hình khác đạt điểm cao. Cần đặt giới hạn bước (step limit) tối thiểu 100 để đạt hiệu suất tối đa.

#LLM #AI #Opus45 #Gemini3 #SWEbench #Vietnamese #tritue #congnghe

https://www.reddit.com/r/LocalLLaMA/comments/1p5wjia/opus_45_only_narrowly_reclaims_1_on_official/

#llm #ai #opus45 #gemini3 #swebench #vietnamese

Winbuzzer @[email protected] · 2025-11-24 · 19:53 UTC

https://winbuzzer.com/2025/11/24/anthropic-launches-claude-opus-4-5-with-80-9-swe-bench-score-and-66-price-drop-xcxwbn

Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop

#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers

#ai #anthropic #claude #generativeai #llm #agenticai

Winbuzzer @[email protected] · 2025-11-24 · 19:53 UTC

https://winbuzzer.com/2025/11/24/anthropic-launches-claude-opus-4-5-with-80-9-swe-bench-score-and-66-price-drop-xcxwbn

Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop

#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers

#ai #anthropic #claude #generativeai #llm #agenticai

Winbuzzer @[email protected] · 2025-11-24 · 19:53 UTC

https://winbuzzer.com/2025/11/24/anthropic-launches-claude-opus-4-5-with-80-9-swe-bench-score-and-66-price-drop-xcxwbn

Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop

#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers

#ai #anthropic #claude #generativeai #llm #agenticai

Sara Zan @[email protected] · 2025-05-23 · 15:01 UTC

📢 Don't overlook this in the wave of releases! #MistralAI has a new coding LLM: it's #Devstral, an open model perfect for on-prem, private and local deployments 🐈

📰 Have a look at the announcement: https://mistral.ai/news/devstral

#AI #GenAI #LLMs #Devstral #SWEBench

#ai #mistralai #devstral #genai #llms #swebench

michabbb @[email protected] · 2025-05-21 · 21:31 UTC

#Devstral: New #opensource Model for Coding Agents by #MistralAI & #AllHandsAI 🧠

• 🏆 #Devstral achieves 46.8% on #SWEBench Verified, outperforming previous #opensource models by over 6% points and surpassing #GPT4 mini by 20%

🧵👇#AI #coding

#devstral #opensource #mistralai #allhandsai #swebench #gpt4

Habr @[email protected] · 2024-11-14 · 14:52 UTC

[Перевод] Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

https://habr.com/ru/articles/857754/

#LLM #бенчмарки #бенчмаркинг #HumanEval #DevQualityEval #CodeXGLUE #Aider #SWEbench #ClassEval #BigCodeBench

#bigcodebench #classeval #swebench #aider #codexglue #devqualityeval

michabbb @[email protected] · 2024-10-29 · 21:31 UTC

🚀 #Claude35Sonnet is now rolling out on #GitHubCopilot, bringing advanced coding capabilities directly to #VisualStudioCode and https://GitHub.com

• 🏆 Performance highlights:
- Highest score among public models on #SWEbench Verified
- 93.7% accuracy on #HumanEval for #Python function writing

• 💻 Key features:
- Production-ready code generation
- Inline debugging assistance
- Automated test suite creation
- Contextual code explanations

• ⚙️ Technical details:
- Runs via #AmazonBedrock
- Cross-region inference for enhanced reliability
- Available to all #GitHub Copilot Chat users and organizations

Source: https://www.anthropic.com/news/github-copilot

#claude35sonnet #githubcopilot #visualstudiocode #swebench #humaneval #python