home.social

#gpt-5-4 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gpt-5-4, aggregated by home.social.

fetched live
  1. Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

    200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

    habr.com/ru/articles/1035574/

    #ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

  2. Nowy Claude ułatwi pracę programistom. Najciekawszy jest jednak model, którego Anthropic nie chce nam pokazać

    Poniedziałkowy poranek przynosi dobre wieści dla świata IT. Anthropic właśnie zaprezentowało Claude Opus 4.7 – model skrojony pod zaawansowaną inżynierię oprogramowania.

    I choć nowe narzędzie w wielu testach wyprzedza flagowe rozwiązania Google i OpenAI, prawdziwa dyskusja toczy się wokół czegoś zupełnie innego. Twórcy otwarcie przyznają, że mają w laboratoriach znacznie bardziej zaawansowany model. Problem w tym, że uznano go za zbyt ryzykowny, by obecnie ujrzał światło dzienne.

    Kodowanie bez nadzoru i nowa ekonomia tokenów

    Wraz z rosnącą popularnością tzw. „vibe codingu” (czyli tworzenia oprogramowania za pomocą naturalnych poleceń tekstowych, a nie tradycyjnego pisania kodu), Claude ugruntował swoją pozycję jako jedno z ulubionych narzędzi deweloperów. Wersja Opus 4.7 ma ten status przypieczętować.

    Jak deklaruje Anthropic, nowy model radzi sobie z najtrudniejszymi zadaniami inżynieryjnymi, które do tej pory wymagały stałego nadzoru człowieka. Opus 4.7 potrafi obsługiwać złożone, długotrwałe procesy, zachowując spójność i samodzielnie weryfikując poprawność wygenerowanego kodu przed zwróceniem wyniku. Model zyskał również zauważalnie lepszą analizę obrazu oraz wyższy poziom kreatywności przy tworzeniu prezentacji i interfejsów. Jest jednak pewien haczyk – aktualizacja wprowadza nowy mechanizm podziału tekstu (tokenizer). Choć usprawnia on przetwarzanie danych, może prowadzić do większego zużycia tokenów, co w praktyce oznacza wyższe koszty dla użytkowników komercyjnych.

    Claude łapie za myszkę. Sztuczna inteligencja od Anthropic potrafi już samodzielnie obsługiwać komputery Mac

    Tajemnica projektu Mythos

    Z opublikowanych wykresów wynika, że Opus 4.7 skutecznie rywalizuje, a w wielu aspektach pokonuje takie modele jak Gemini 3.1 Pro od Google czy GPT 5.4 od OpenAI. Dlaczego więc Anthropic w swoim własnym komunikacie niejako umniejsza jego możliwości?

    Wszystko za sprawą modelu o nazwie Mythos. Firma przyznaje, że Opus 4.7 jest narzędziem znacznie mniej wszechstronnym. Mythos okazał się jednak wybitny w wykrywaniu i analizowaniu luk w zabezpieczeniach systemów informatycznych. Ta niesamowita skuteczność stanowi jednak miecz obosieczny – z tego powodu Anthropic podjęło decyzję o ograniczeniu jego dostępności i zamknięciu w laboratoriach. Wypuszczony właśnie na rynek Opus 4.7 posiada natomiast rygorystyczne blokady bezpieczeństwa, które automatycznie ucinają zapytania związane z omijaniem zabezpieczeń informatycznych.

    Nowa era cyfrowych strażników

    Ten z pozoru zwykły debiut oprogramowania pokazuje nam wyraźną zmianę na rynku sztucznej inteligencji. Przez ostatnie kilkanaście miesięcy trwał nieskrępowany wyścig o to, kto pokaże światu mądrzejszy algorytm. Dziś wchodzimy w erę, w której możliwości techniczne wyprzedziły procedury bezpieczeństwa.

    Fakt, że Anthropic otwarcie chwali się modelem, którego nie zamierza wydać, dowodzi, że giganci technologiczni stają się nowymi cyfrowymi strażnikami. Po raz pierwszy to nie możliwości technologiczne wyznaczają tempo rozwoju AI, ale decyzje o tym, czego nie należy publikować. Opus 4.7 to bez wątpienia świetne usprawnienie codziennej pracy programistów, ale to zamknięty w laboratoriach Mythos wyznacza dziś prawdziwą granicę sztucznej inteligencji.

    #AI #Anthropic #Claude #cyberbezpieczeństwo #Gemini31Pro #GPT54 #innowacjeIT #programowanie #sztucznaInteligencja #vibeCoding
  3. GPT-5.4 Cyber is a more permissive, defender focused model from OpenAI, designed to help security teams with vulnerability research, malware analysis, and binary reverse engineering instead of blocking every dual use query.

    It’s a strong signal that AI is becoming part of the standard defensive toolkit, not just an attacker’s toy.

    #GPT54 #CyberSecurity #InfoSec #BlueTeam #OpenAI

  4. OpenAI’s GPT-5.4 Cyber is a defender-first model with fewer restrictions, serious binary reverse-engineering skills, and access gated through its Trusted Access for Cyber program; aimed at getting more capable tools into the hands of vetted security teams. I also look at how it contrasts with Anthropic’s tightly curated Claude Mythos Preview and why this signals the start of true AI-assisted cyber defense:
    techglimmer.io/what-is-gpt-5-4

    #GPT54 #CyberSecurity #InfoSec #AI #OpenAI #Anthropic

  5. Как я превратил Codex в персонального Джарвиса

    Можно ли превратить coding agent не просто в помощника по коду, а в персонального ассистента с долговременной памятью? Я собрал для Codex иерархическую базу знаний на Markdown и Git, добавил роли, автоматизации, AnkiConnect и Telegram-архивы, а затем проверил, насколько далеко можно зайти без векторных баз и сложного RAG. В статье показываю, как устроена такая система, где она реально полезна и почему главный вопрос здесь не в модели, а в архитектуре памяти.

    habr.com/ru/articles/1021560/

    #ai #codex #gpt #gpt54 #jarvis #llmагент

  6. Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

    Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

    habr.com/ru/articles/1020016/

    #llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

  7. Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

    Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

    habr.com/ru/companies/haulmont

    #ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

  8. Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

    Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

    habr.com/ru/companies/koda/art

    #Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

  9. GPT-5.4 mini, Tesla строит свой TSMC, омары в Китае и $100 за буллинг ИИ

    Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Неделя вышла насыщенной: GPT-5.4 mini для всех, своя моделька для кода у Cursor, а Google сделала из AI Studio среду для вайбкодинга. Илон Маск анонсировал завод по производству чипов на 25 млрд. долларов, в Китае OpenClaw теперь народный «омаровод», а один стартап платит $100 в час за хамские диалоги с ИИ. Всё самое важное — в одном месте. Поехали! Читать дайджест →

    habr.com/ru/companies/timeweb/

    #ии_дайджест #новости #нейросети #llm #gemini #openclaw #gpt54 #openai #tmsc #timeweb_дайджест

  10. #OpenAI launched #GPT54 #mini and #nano, smaller and faster versions of their flagship GPT-5.4 model. These models are designed for efficient, high-volume #AIworkloads, offering near-flagship performance at a lower cost. They excel in coding, reasoning, multimodal understanding, and tool use, making them ideal for applications like #codingassistants. zdnet.com/article/gpt-5-4-mini #tech #media #news

  11. OpenAI lance GPT-5.4 mini et nano, deux petits modèles taillés pour aller vite dlvr.it/TRY3yY #OpenAI #GPT54