home.social

#claude_opus_46 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #claude_opus_46, aggregated by home.social.

  1. [Перевод] Как научить кодинг-модели не переписывать код заново

    Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

    habr.com/ru/articles/1027096/

    #кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

  2. [Перевод] Как научить кодинг-модели не переписывать код заново

    Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

    habr.com/ru/articles/1027096/

    #кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

  3. [Перевод] Как научить кодинг-модели не переписывать код заново

    Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

    habr.com/ru/articles/1027096/

    #кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

  4. [Перевод] Как научить кодинг-модели не переписывать код заново

    Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

    habr.com/ru/articles/1027096/

    #кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

  5. AI-суперапп – главный тренд 2026 по версии Forbes. Что мы видим из GPTunneL с позиции 2 млн пользователей

    В декабре 2025-го я рассказал на Хабре, как GPTunneL вырос до 1,5 млн пользователей. С тех пор нас стало 2 млн. Подумал – пора рассказать, что мы делаем сейчас и куда идём. Forbes в феврале назвал AI-суперапп одним из главных трендов 2026 года. Для нас это не прогноз – мы видели это в собственной статистике весь 2025 год: трафик на мультимодальные инструменты вырос в три раза, пользователи перестали «спрашивать» и начали «давать задачи», корпораты стали приходить за продуктами, а не за моделями. В статье – что происходит с AI-суперапп в Китае, США и Турции, куда движется российский рынок (закон о суверенных моделях, GigaChat Enterprise, дефицит GPU), зачем мы строим собственную модель GROM и почему перепродажа токенов в нашей выручке занимает меньше 20%.

    habr.com/ru/articles/1024638/

    #ai #ml #gigachat #openai #claude #claude_opus_46 #nana_banana #агрегаторынейросетей #агрегаторы_нейросетей #ии

  6. Claude: как пользоваться нейросетью в России в 2026 году

    Помните сцену из “Матрицы”, где Нео смотрит на экран с зелёными символами и вдруг начинает видеть – не код, а реальность за ним? Примерно такое же ощущение возникает, когда первый раз по-настоящему используешь Claude. Не просто “дай код” или “перепиши абзац”, а когда задаёшь сложный вопрос, даёшь контекст – и получаешь ответ, который ощущается как разговор с очень умным, терпеливым человеком. Человеком, которому нескучно разбираться в деталях. Эта статья – про то, как добраться до этого опыта из России. Потому что просто открыть claude.ai и зарегистрироваться – не выйдет. Но выход есть, и он удобнее, чем кажется.

    habr.com/ru/companies/bothub/a

    #anthropic #claude #claude_haiku_45 #claude_sonnet_46 #claude_opus_46 #промпты #bothub #клод_шеннон

  7. ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

    Помните, как пару лет назад мы восхищались тем, что нейросеть может написать связный абзац? А год назад – что она осилила код без синтаксической ошибки? Сегодня планка взлетела так высоко, что уникальные способности моделей превращаются в стандартный пакет услуг. OpenAI выкатила GPT‑5.4 Pro. И если раньше слово “Pro” в названии часто означало просто “чуть больше токенов и подороже”, то теперь это действительно профессорский уровень . Модель берёт сложнейший тест ARC-AGI-2 с результатом 83,3% (против 54% у предшественницы), решает задачи из FrontierMath , которые ещё недавно казались крепостью для ИИ, и... случайно находит в интернете забытую научную статью 2011 года, чтобы срезать путь к ответу. В этом обзоре мы не только разбираем цифры бенчмарков (хотя они тут просто фантастические), но и устраиваем моделям настоящую проверку : от логической головоломки с серверами до полноценного стелс-симулятора на канвасе. Пристегнитесь, будет интересно!

    habr.com/ru/companies/bothub/a

    #chatgpt_54_pro #gemini_31_pro #claude_opus_46

  8. Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

    Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров. 5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки. Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro. Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза. Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит в 6,5 раза дешевле флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах. Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади? Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки. Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и кто победит в этой дуэли – цифровой гений-отличник или философ с душой.

    habr.com/ru/companies/bothub/a

    #gemini_31_pro #claude_opus_46 #chatgpt_53_codex #claude_sonnet_46

  9. Прощай Cursor

    Claude добавил новую фичу в десктопной версии. А именно, в интерфейсе появилась третья закладка - Code. Главное нововведение - это возможность подключать код проекта прямо в чат и работать с ним без копипаста.

    habr.com/ru/articles/1003310/

    #claude_code #Cursor #claude_opus_46 #claude_sonnet_46 #Slash_commands #worktree #CLAUDEmd_файл

  10. [Перевод] Anthropic против OpenAI: два разных подхода к «быстрому режиму»

    Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса. В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras. Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике.

    habr.com/ru/articles/1000782/

    #Anthropic #OpenAI #быстрый_режим_LLM #инференс_нейросетей #батчинг #Cerebras #GPT53Codex #Claude_Opus_46 #ускорение_моделей_ИИ #производительность_LLM

  11. Сравнение LLM по навыку анализа бизнес-процессов

    Всё чаще аналитики бизнес-процессов используют LLM для поиска неэффективностей. Звучит логично: большие языковые модели умеют искать паттерны, а Process Mining как раз об этом. Но на практике результаты пляшут так, что становится понятно: не все LLM одинаково полезны для операционной аналитики. Решил разработать методологию тестирования LLM на предмет релевантности использования для задач анализа процессов. Было подготовлено три теста, имитирующих реальные сценарии анализа: Тест 1. Сырой лог событий. Сгенерировал журнал в классическом формате: id экземпляра процесса, название этапа, временная метка завершения. Всего 20,5 тысяч записей, 1,6 тысячи экземпляров процесса. Внутри спрятал 200 типовых аномалий: зацикливания, bottle neck, избыточные этапы и т.д. Модель получала таблицу «как есть» - без подсказок и форматирования. Оценка: +1 балл за верно найденный кейс, -0,25 за ложное срабатывание. Итог рассчитывался как процент от максимально возможных 200 баллов. Если модель трижды молчала или выдавала «всё идеально» или какую-то ерунду, то стравился ноль. Тест 2. Регламент с шумом. Текстовый документ с описанием процесса: этапы, роли, условия переходов. Но также там было добавлено и много "воды" слабо относящейся к самому процессу. К этом тексте "регламенте" было спрятано 100 неэффективностей. Та же система баллов, рассчитывалась доля найденых кейсов, за галлюцинирование штрафы по минус 0,25 балла за каждую галлюцинацию. Тест 3. Визуальная схема. PNG с диаграммой BPMN: 20 блоков, около сотни переходов. На схеме было 20 логических ошибок: циклы без условия выхода, неиспользуемые шлюзы, избыточные маршруты, повисшие этапы и т.д.. Проверял, система оценки таже +1 балл за найденный кейс, -0,25 балла за глюс, и считался процент от всех спрятаных проблем. Финальный скор считался с весами: 80% - анализ лога(таблица с журналом событий) , 10% - текст-"регламент", 10% - картинка с BPMN. Результаты немного опечалили, что в целом было предсказуемо.

    habr.com/ru/articles/996394/

    #LLM #process_mining #бизнеспроцессы #бизнесанализ #claude_opus_46 #искусственный_интеллект #ml #ai

  12. Сравнение ИИ-гигантов: ChatGPT 5.2 vs Gemini 3 Pro vs Claude Opus 4.6

    Stop. Хватит читать обзоры бенчмарков. Они не расскажут, почему ChatGPT увидел 127 точек , а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру , которая должна была быть “просто раздражающей”. И уж точно не покажут, кто из них думает, а кто просто генерирует текст . Мы провели стресс-тест в пяти раундах. Раунд 1: Вопрос, который меняет мышление. Раунд 2: Мультимодальный подсчёт – где ИИ должен видеть. Раунд 3: Печеньки на чёрной поверхности – где должен догадываться . Раунд 4: Экстремальное судоку – логически рассуждать . Раунд 5: Игра одним HTML-файлом – творить . Время гадать закончилось. Пока одни спорят, кто круче – ChatGPT, Gemini или Claude, – мы просто взяли и проверили . Не на бумажке. Не по цифрам из пресс-релизов. На реальных задачах. За пять испытаний каждая модель показала своё истинное лицо. Кто-то споткнулся на простом подсчёте точек. Кто-то удивил философской глубиной. А кто-то создал игру , которую не стыдно выложить в аппстор. И да, победитель есть. Смотрите, кто из гигантов действильно тянет .

    habr.com/ru/companies/bothub/a

    #chatgpt_52 #claude_opus_46 #gemini_3_pro #сравнение_иимоделей