#벤치마크 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #벤치마크, aggregated by home.social.
-
Qwen3.6-Max, 코딩 벤치마크 1위지만 오픈소스는 없다, Alibaba의 전략 전환
Alibaba가 Qwen 최초의 클로즈드 웨이트 모델 Qwen3.6-Max-Preview를 출시했습니다. 코딩 벤치마크 6개 1위, 오픈소스 포기의 의미를 분석합니다. -
AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
AI 에이전트 스킬이 벤치마크와 달리 현실 조건에서 성능 이점이 거의 사라진다는 연구 결과. 34,000개 실제 스킬로 테스트한 UC Santa Barbara·MIT 연구팀의 분석. -
AI 에이전트에게 bash만 주면 될까, Vercel과 Braintrust의 실전 테스트
AI 에이전트에게 bash만 주면 충분할까? Vercel과 Braintrust가 실전 테스트한 결과, SQL이 압도적 우위를 보였고 하이브리드 접근법이 가장 안정적이었습니다.