#claudesonnet45 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #claudesonnet45, aggregated by home.social.
-
AWS rzuca wyzwanie Copilotowi. Kiro już dostępne, a startupy dostaną je za darmo
Amazon Web Services (AWS) oficjalnie ogłosił ogólną dostępność Kiro – swojego zaawansowanego asystenta AI dla programistów.
Narzędzie, które ma konkurować z GitHub Copilotem, wyróżnia się unikalnym podejściem do generowania kodu opartym na specyfikacjach. Co ważne, wybrane startupy mogą korzystać z najdroższej wersji narzędzia przez rok zupełnie bezpłatnie.
Kiro nie jest tylko wtyczką do IDE. Działa również w terminalu (CLI), co jest kluczowe dla inżynierów DevOps i backendowców. Narzędzie jest napędzane przez potężne modele, w tym Claude Sonnet 4.5, Claude Haiku 4.5 oraz autorski model „Auto”, który dobiera silnik do zadania.
Koniec ze „zgadywaniem” kodu? Podejście Spec-Driven
To, co odróżnia Kiro od konkurencji, to metodologia spec-driven development. Zamiast generować kod „na ślepo” z prostego prompta, Kiro najpierw wymaga zdefiniowania dokładnych wymagań (specyfikacji). Dopiero na ich podstawie tworzy, testuje i wdraża kod.
AWS chwali się, że ich własny zespół użył Kiro do wdrożenia funkcjonalności w 2 dni zamiast planowanych 2 tygodni.
Testy, które przewidują setki scenariuszy
Nowością w wersji finalnej jest property-based testing. Tradycyjne testy sprawdzają jeden scenariusz (np. „czy dodało produkt do koszyka”). Kiro generuje automatycznie setki wariantów.
Jak wyjaśnia Tomasz Stachlewski, dyrektor ds. architektury w AWS:
„Property-based testing w Kiro sprawdzi setki różnych scenariuszy – czy system prawidłowo zarządza statusami samochodów w bazie danych (…), czy właściwie waliduje dane przy różnych kombinacjach parametrów wyszukiwania”.
Oferta dla startupów: rok za darmo
AWS walczy o rynek agresywną promocją. Startupy (do poziomu finansowania Series B) mogą otrzymać do 100 licencji Kiro Pro+ za darmo na okres jednego roku. Program potrwa do 31 grudnia 2025 roku.
#asystentAiDlaProgramistow #awsKiro #claudeSonnet45 #darmoweLicencjeAws #news #programowanieAi #specDrivenDevelopment #startupy
-
Chiński startup pobił GPT-5 i Claude 4.5. Model AI trenowano za ułamek ceny
Amerykańska dominacja w AI stanęła pod znakiem zapytania. Jak donosi serwis AI News (potwierdzając dane z wielu źródeł), chiński startup Moonshot AI wypuścił właśnie nowy, otwarty model (open-source) Kimi K2 Thinking, który w kluczowych benchmarkach pobił zarówno GPT-5 od OpenAI, jak i Claude Sonnet 4.5 od Anthropic.
Startup z Pekinu, wspierany przez gigantów Alibaba i Tencent, wywołał w branży szok, określany już jako kolejny „moment DeepSeek” – czyli dowód na to, że Chiny potrafią tworzyć tańszą i równie wydajną technologię.
Jak Kimi K2 wypada w testach?
Według oficjalnej dokumentacji i niezależnych analiz, Kimi K2 Thinking uzyskał:
- 44.9% w teście Humanity’s Last Exam (benchmark sprawdzający rozumowanie w 2500 pytań z różnych dziedzin), pokonując GPT-5 (41.7%).
- 60.2% w teście BrowseComp (sprawdzającym umiejętności przeglądania sieci i wyszukiwania informacji), również pokonując GPT-5 (który uzyskał tam 54.9%).
Broń Chin: cena
Największym szokiem nie jest jednak sama wydajność, ale koszt. Według doniesień CNBC, na które powołuje się AI News, koszt treningu Kimi K2 Thinking wyniósł zaledwie 4,6 miliona dolarów. Jednak tutaj w redakcji zapaliła się nam czerwona lampka, bo już krótko po debiucie modelu DeepSeek, również mówiono o znikomych kosztach treningu, które po czasie okazały się znacznie wyższe od wstępnie deklarowanych.
Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis
W każdym razie jeżeli chodzi o chińską nowość, to podobno koszt korzystania z API tego modelu jest od 6 do 10 razy niższy niż w przypadku modeli OpenAI i Anthropic. Model wykorzystuje architekturę Mixture-of-Experts (MoE) z 1 bilionem parametrów (z czego 32 miliardy są aktywne jednocześnie).
Wstępne testy wypadają obiecująco, koszty treningu (biorąc pod uwagę uzyskane rezultaty) są po prostu mało wiarygodne, czekamy na ich potwierdzenie z innych, niezależnych źródeł i będziemy was informować na bieżąco.
#aiSi #benchmark #chiny #claudeSonnet45 #deepseek #gpt5 #kimiK2Thinking #moonshotAi #news #openSource #sztucznaInteligencja
-
Anthropic neuestes KI-Modell erkennt, wenn es getestet wird
https://www.businessinsider.de/wirtschaft/anthropic-neuestes-ki-modell-erkennt-wenn-es-getestet-wird/ #KI #Anthropic #ClaudeSonnet45 #Selbstwahrnehmung #Stresstest -
AI 에이전트가 7시간짜리 전문가 업무를 혼자 처리하는 시대가 왔다
OpenAI의 GDPval 테스트에서 AI가 14년 경력 전문가의 실무 과제를 거의 동등한 수준으로 수행했습니다. Claude Sonnet 4.5의 학술 논문 재현 사례와 함께 AI 에이전트의 실제 업무 능력과 현명한 활용 전략을 소개합니다.