#swe-bench — Public Fediverse posts on home.social

N-gated Hacker News @[email protected] · 2026-04-26 · 14:53 UTC

🍪🔒 Oh wow, an article trying to explain why SWE-bench Verified doesn't measure cutting-edge coding skills, but all it tells you is to enable #JavaScript and #cookies. Groundbreaking insight! 🧠✨ Clearly, the future of coding depends on cookie consent. 🍪💡
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/ #SWEbench #CookieConsent #CodingSkills #GroundbreakingInsight #HackerNews #ngated

#javascript #cookies #swebench #cookieconsent #codingskills #groundbreakinginsight

Hacker News @[email protected] · 2026-04-26 · 14:53 UTC

Why SWE-bench Verified no longer measures frontier coding capabilities

https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

#HackerNews #SWEbench #CodingCapabilities #FrontierTech #SoftwareEngineering #TechTrends

#hackernews #swebench #codingcapabilities #frontiertech #softwareengineering #techtrends

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

deepseek @[email protected] · 2026-04-26 · 08:37 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США? DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), ...

#DeepSeek #V4 #mixture #of #experts #open #source #LLM #frontier #модели #SWE-bench

Origin | Interest | Match

#deepseek #v4 #mixture #of #experts #open

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench

Habr @[email protected] · 2026-03-27 · 17:12 UTC

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зависимости, дебажат по логам и могут довести задачу до рабочего состояния почти без участия разработчика. Но на практике всё не так однозначно — один агент хорошо чинит баги, но ломает архитектуру, другой уверенно пишет на Python, но теряется в TypeScript. Чтобы разобраться, кто из них реально помогает в разработке, а кто только выглядит убедительно, мы прогнали популярные решения через собственный приватный бенчмарк с задачами на 15+ языках. Меня зовут Ильнур Файзиев, я руковожу юнитом Data LLM в

https://habr.com/ru/companies/doubletapp/articles/1014646/

#codex #cursor #claude_code #swebench #ai #aiассистент #ai_agent #gpt53_codex #opus #sonnet

#sonnet #opus #gpt53_codex #ai_agent #aiассистент #ai

Hacker News @[email protected] · 2026-03-11 · 22:00 UTC

Many SWE-bench-Passing PRs would not be merged

https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/

#HackerNews #SWEbench #PRs #SoftwareEngineering #CodeQuality #DevelopmentInsights

#hackernews #swebench #prs #softwareengineering #codequality #developmentinsights

Habr @[email protected] · 2026-02-24 · 14:02 UTC

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

#сравнение_моделей_ии #arcagi2 #swebench #gpt52 #gemini_31_pro #claude_sonnet_46

AI Daily Post @[email protected] · 2026-02-19 · 17:43 UTC

Google just rolled out Gemini 3.1 Pro, smashing the GPQA Diamond benchmark at 94.3% and climbing to an Elo 2 on LiveCodeBench Pro. It also tops SWE‑Bench, showing leaps in AI reasoning, scientific knowledge, and vibe‑coding. Curious how it reshapes open‑source AI research? Read the full breakdown. #Gemini3_1Pro #GPQADiamond #LiveCodeBenchPro #SWEBench

🔗 https://aidailypost.com/news/google-unveils-gemini-31-pro-hits-943-gpqa-diamond-coding-elo-2

#gemini3_1pro #gpqadiamond #livecodebenchpro #swebench

AI Daily Post @[email protected] · 2026-02-17 · 18:33 UTC

Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI

🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus

#anthropic #claudesonnet #swebench #enterpriseai

Winbuzzer @[email protected] · 2025-11-24 · 19:53 UTC

https://winbuzzer.com/2025/11/24/anthropic-launches-claude-opus-4-5-with-80-9-swe-bench-score-and-66-price-drop-xcxwbn

Anthropic Launches Claude Opus 4.5 with 80.9% SWE-bench Score and 66% Price Drop

#AI #Anthropic #Claude #GenerativeAI #LLM #AgenticAI #AICoding #SoftwareDevelopment #AIModels #Opus45 #SWEbench #AIEfficiency #Developers

#ai #anthropic #claude #generativeai #llm #agenticai

AI Sparkup @[email protected] · 2025-10-28 · 02:20 UTC

MiniMax M2가 보여준 효율성 혁명: Claude의 8% 비용, 2배 빠른 속도

중국 MiniMax가 공개한 M2 모델이 Claude Sonnet 비용의 8%, 2배 빠른 속도로 Claude Opus 4.1을 앞서는 성능을 달성했습니다. 230억 파라미터 중 100억만 활성화하는 효율적 설계와 실전 활용법을 소개합니다.

https://aisparkup.com/posts/5962

#ai벤치마크 #ai에이전트 #claude대안 #llm #minimaxm2 #swebench

AI Sparkup @[email protected] · 2025-10-16 · 07:05 UTC

Claude Haiku 4.5 출시: Sonnet 4 성능을 1/3 가격에

Anthropic의 Claude Haiku 4.5는 5개월 전 최첨단 성능을 1/3 가격에 2배 빠른 속도로 제공하며 AI 활용의 패러다임을 바꾸고 있습니다. 실전 코딩부터 멀티 에이전트 협업까지 새로운 가능성을 확인하세요.

https://aisparkup.com/posts/5653

#ai모델 #anthropic #claudehaiku45 #llm #swebench #개발자도구

Jeff Triplett @[email protected] · 2025-09-26 · 14:18 UTC

If your company is benefiting from Django’s stability and maturity to test or train AI models, consider **funding Django’s development**.

💚 Support Django: https://www.djangoproject.com/fundraising/

#Django #AI #LLM #Benchmarks #OpenSource #SWEbench

#django #ai #llm #benchmarks #opensource #swebench

Dash Remover @[email protected] · 2025-09-22 · 17:00 UTC

Every time someone calls developers 'code monkeys' in 2025, a VC whispers 'founder material' and invests in a Slack plugin that reschedules meetings using vibes.

#AI #startups #SWEbench #tech 😂💸🧵

#ai #startups #swebench #tech

Hacker News @[email protected] · 2025-09-11 · 18:50 UTC

Top model scores may be skewed by Git history leaks in SWE-bench

https://github.com/SWE-bench/SWE-bench/issues/465

#HackerNews #TopModelScores #GitHistoryLeads #SWEbench #SoftwareEngineering #DataIntegrity

#hackernews #topmodelscores #githistoryleads #swebench #softwareengineering #dataintegrity

Winbuzzer @[email protected] · 2025-08-12 · 14:45 UTC

Qodo Command Enters AI Coding Agent Wars With 71.2% SWE-Bench Score

#AI #SWEbench #Qodo #OpenAI #Anthropic #GPT5 #Coding

https://winbuzzer.com/2025/08/12/qodo-command-enters-ai-coding-agent-wars-with-71-2-swe-bench-score-xcxwbn

#ai #swebench #qodo #openai #anthropic #gpt5

Sara Zan @[email protected] · 2025-05-23 · 15:01 UTC

📢 Don't overlook this in the wave of releases! #MistralAI has a new coding LLM: it's #Devstral, an open model perfect for on-prem, private and local deployments 🐈

📰 Have a look at the announcement: https://mistral.ai/news/devstral

#AI #GenAI #LLMs #Devstral #SWEBench

#ai #mistralai #devstral #genai #llms #swebench

Sara Zan @[email protected] · 2025-05-22 · 16:48 UTC

🧠 Another flagship model released! #Anthropic just unveiled Claude Opus 4 and Claude Sonnet 4, and they are at the top of the leaderboard for coding 💻

📰 Check out the announcement: https://www.anthropic.com/news/claude-4

#AI #GenAI #LLMs #Claude #Claude4 #SweBench

#ai #genai #llms #claude #claude4 #swebench

N-gated Hacker News @[email protected] · 2025-05-22 · 10:52 UTC

🎉🥳 OMG, Refact.ai scored a groundbreaking 69.8 on #SWEbench and now it's charging you in coins! 💰🔧 Apparently, solving 349 out of 500 tasks makes it the reigning champion of open-source AI agents. Who knew moving from request limits to coin tossing was the future of tech? 🤪👨‍💻
https://refact.ai/blog/2025/open-source-sota-on-swe-bench-verified-refact-ai/ #RefactAI #openSourceAI #techInnovation #coinTossing #HackerNews #ngated

#swebench #refactai #opensourceai #techinnovation #cointossing #hackernews

michabbb @[email protected] · 2025-05-21 · 21:31 UTC

#Devstral: New #opensource Model for Coding Agents by #MistralAI & #AllHandsAI 🧠

• 🏆 #Devstral achieves 46.8% on #SWEBench Verified, outperforming previous #opensource models by over 6% points and surpassing #GPT4 mini by 20%

🧵👇#AI #coding

#devstral #opensource #mistralai #allhandsai #swebench #gpt4

Habr @[email protected] · 2025-04-15 · 19:12 UTC

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python. Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в

https://habr.com/ru/companies/doubletapp/articles/901032/

#swebench #ии #нейросети #ml #машинное_обучение #искусственный_интеллект #github #open_source