#кодинг-агенты — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-15 · 11:22 UTC

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

#gpt54 #opus_47 #vibecoding #swebench #кодингагенты #llm

Habr @[email protected] · 2026-05-15 · 11:22 UTC

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

#gpt54 #opus_47 #vibecoding #swebench #кодингагенты #llm

Habr @[email protected] · 2026-05-15 · 11:22 UTC

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

#gpt54 #opus_47 #vibecoding #swebench #кодингагенты #llm

Habr @[email protected] · 2026-05-15 · 11:22 UTC

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают скомпилированный бинарь и описание программы. Никаких сорсов, никакой декомпиляции, никакого интернета. Задача — собрать программу с нуля так, чтобы она прошла 248 тысяч поведенческих тестов. Это не «пофиксить баг в существующем коде» (как SWE-bench) и не «дописать функцию по сигнатуре» (как HumanEval). Это другой ТИП задачи: спроектировать систему. Внутри — методология, паттерн результатов (что модели вытягивают, а что нет), и почему этот ноль — на самом деле важная новость для тех, кто строит на LLM продакшен.

https://habr.com/ru/articles/1035574/

#ProgramBench #бенчмарк #LLM #кодингагенты #SWEbench #vibecoding #opus_47 #GPT54

#programbench #бенчмарк #llm #кодингагенты #swebench #vibecoding

Habr @[email protected] · 2026-04-25 · 08:12 UTC

[Перевод] Как научить кодинг-модели не переписывать код заново

Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

https://habr.com/ru/articles/1027096/

#кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

#deepseek #kimi #glm #gemini #claude_opus_46 #gpt_5

Habr @[email protected] · 2026-04-25 · 08:12 UTC

[Перевод] Как научить кодинг-модели не переписывать код заново

Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

https://habr.com/ru/articles/1027096/

#кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

#deepseek #kimi #glm #gemini #claude_opus_46 #gpt_5

Habr @[email protected] · 2026-04-25 · 08:12 UTC

[Перевод] Как научить кодинг-модели не переписывать код заново

Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

https://habr.com/ru/articles/1027096/

#кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

#deepseek #kimi #glm #gemini #claude_opus_46 #gpt_5

Habr @[email protected] · 2026-04-25 · 08:12 UTC

[Перевод] Как научить кодинг-модели не переписывать код заново

Не надо переписывать то, что не поломано Код к этому посту доступен на Github . Кодинг при помощи ИИ стал нормой; мы всё больше позволяем моделям наподобие Cursor, GitHub Copilot, Claude Code и Codex вмешиваться в наш код. Если вы в прошлом пользовались каким-то из этих инструментов, то, вероятно, сталкивались с чем-то подобным: вы просите модель устранить простой баг (допустим, ошибку смещения на единицу или не тот оператор). Модель устраняет баг, но половина функции оказывается переписанной. Появляется новая вспомогательная функция. Совершенно логичное имя переменной меняется на другое. Добавляется новая валидация ввода. И diff из-за этого становится огромным. Я называю это проблемой избыточной редактуры : модели склонны переписывать код, не нуждающийся в переписывании. На самом деле, это важнее, чем может показаться. При разработке узким местом всегда становится ревью кода: ревьюерам нужно понять, что и почему поменялось, а также безопасно ли изменение. Модель, переписывающая целые функции, пусть даже корректно, существенно усложняет эту работу, потому что код теперь выглядит совершенно иначе. В своём посте я исследую эту проблему: имеют ли современные LLM склонность к избыточной редактуре и можем ли мы обучить модели редактировать код в должной мере?

https://habr.com/ru/articles/1027096/

#кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini #glm #kimi #deepseek

#кодингагенты #иипомощники #qwen #gpt_5 #claude_opus_46 #gemini

deepseek @[email protected] · 2026-04-25 · 08:06 UTC

[Перевод] Как научить кодинг-модели не переписывать код заново Не надо переписывать то, что не поломано Код ...

#кодинг-агенты #ии-помощники #qwen #gpt #5 #claude #opus #4.6 #gemini #glm #kimi

Origin | Interest | Match

#кодингагенты #иипомощники #qwen #gpt #claude #opus

Habr @[email protected] · 2026-03-10 · 14:52 UTC

Контекст‑инжиниринг для coding‑агентов: почему агент тупит не из‑за модели

Сначала я был уверен, что мой coding‑агент просто тупит. Он игнорировал свежие требования, изредка терял файлы, а иногда даже генерировал что-то совсем уж не в тему. Потом я открыл свои старые сессии — и стало неловко, потому что во всем виноват только один из нас — я. Я увидел, как сам ломаю контекст: смешиваю разные задачи, таскаю старое ТЗ и не вычищаю ненужные хвосты, когда уже пора. Поразмыслив, я понял, что переоцениваю «магичность» модели и недооцениваю дисциплину использования. Ведь для успешного применения агентов важно, как построены сессии, заданы инструкции, настроены субагенты, команды и устойчивые skills — в общем, контекст, который мы закладываем в модель. Эта статья предназначена для специалистов, работающих с LLM- и AI-агентами или планирующих их внедрение. Она будет полезна разработчикам, промпт-инженерам, специалистам по контекст-инжинирингу и техническим лидерам. В ней вы найдете мои советы по оптимизации AI-агентов для автоматизации задач, а после прочтения лучше поймете, как управлять контекстом. Поводом к этой статье стал гайд Sankalp Shubham про Claude Code 2.0 и мои размышления о контекст‑инжиниринге. Здесь я совмещаю мини‑перевод ключевых идей с собственной практикой, чтобы показать, как приемы из гайда переложить на работу с любыми coding‑агентами (да и на работу вообще).

https://habr.com/ru/companies/cloud_ru/articles/1008522/

#aiагент #кодингагенты #claude_code #гайд

#гайд #claude_code #кодингагенты #aiагент

Habr @[email protected] · 2026-03-10 · 14:52 UTC

Контекст‑инжиниринг для coding‑агентов: почему агент тупит не из‑за модели

Сначала я был уверен, что мой coding‑агент просто тупит. Он игнорировал свежие требования, изредка терял файлы, а иногда даже генерировал что-то совсем уж не в тему. Потом я открыл свои старые сессии — и стало неловко, потому что во всем виноват только один из нас — я. Я увидел, как сам ломаю контекст: смешиваю разные задачи, таскаю старое ТЗ и не вычищаю ненужные хвосты, когда уже пора. Поразмыслив, я понял, что переоцениваю «магичность» модели и недооцениваю дисциплину использования. Ведь для успешного применения агентов важно, как построены сессии, заданы инструкции, настроены субагенты, команды и устойчивые skills — в общем, контекст, который мы закладываем в модель. Эта статья предназначена для специалистов, работающих с LLM- и AI-агентами или планирующих их внедрение. Она будет полезна разработчикам, промпт-инженерам, специалистам по контекст-инжинирингу и техническим лидерам. В ней вы найдете мои советы по оптимизации AI-агентов для автоматизации задач, а после прочтения лучше поймете, как управлять контекстом. Поводом к этой статье стал гайд Sankalp Shubham про Claude Code 2.0 и мои размышления о контекст‑инжиниринге. Здесь я совмещаю мини‑перевод ключевых идей с собственной практикой, чтобы показать, как приемы из гайда переложить на работу с любыми coding‑агентами (да и на работу вообще).

https://habr.com/ru/companies/cloud_ru/articles/1008522/

#aiагент #кодингагенты #claude_code #гайд

#гайд #claude_code #кодингагенты #aiагент

Habr @[email protected] · 2026-03-10 · 14:52 UTC

Контекст‑инжиниринг для coding‑агентов: почему агент тупит не из‑за модели

Сначала я был уверен, что мой coding‑агент просто тупит. Он игнорировал свежие требования, изредка терял файлы, а иногда даже генерировал что-то совсем уж не в тему. Потом я открыл свои старые сессии — и стало неловко, потому что во всем виноват только один из нас — я. Я увидел, как сам ломаю контекст: смешиваю разные задачи, таскаю старое ТЗ и не вычищаю ненужные хвосты, когда уже пора. Поразмыслив, я понял, что переоцениваю «магичность» модели и недооцениваю дисциплину использования. Ведь для успешного применения агентов важно, как построены сессии, заданы инструкции, настроены субагенты, команды и устойчивые skills — в общем, контекст, который мы закладываем в модель. Эта статья предназначена для специалистов, работающих с LLM- и AI-агентами или планирующих их внедрение. Она будет полезна разработчикам, промпт-инженерам, специалистам по контекст-инжинирингу и техническим лидерам. В ней вы найдете мои советы по оптимизации AI-агентов для автоматизации задач, а после прочтения лучше поймете, как управлять контекстом. Поводом к этой статье стал гайд Sankalp Shubham про Claude Code 2.0 и мои размышления о контекст‑инжиниринге. Здесь я совмещаю мини‑перевод ключевых идей с собственной практикой, чтобы показать, как приемы из гайда переложить на работу с любыми coding‑агентами (да и на работу вообще).

https://habr.com/ru/companies/cloud_ru/articles/1008522/

#aiагент #кодингагенты #claude_code #гайд

#гайд #claude_code #кодингагенты #aiагент

Habr @[email protected] · 2026-03-10 · 14:52 UTC

Контекст‑инжиниринг для coding‑агентов: почему агент тупит не из‑за модели

Сначала я был уверен, что мой coding‑агент просто тупит. Он игнорировал свежие требования, изредка терял файлы, а иногда даже генерировал что-то совсем уж не в тему. Потом я открыл свои старые сессии — и стало неловко, потому что во всем виноват только один из нас — я. Я увидел, как сам ломаю контекст: смешиваю разные задачи, таскаю старое ТЗ и не вычищаю ненужные хвосты, когда уже пора. Поразмыслив, я понял, что переоцениваю «магичность» модели и недооцениваю дисциплину использования. Ведь для успешного применения агентов важно, как построены сессии, заданы инструкции, настроены субагенты, команды и устойчивые skills — в общем, контекст, который мы закладываем в модель. Эта статья предназначена для специалистов, работающих с LLM- и AI-агентами или планирующих их внедрение. Она будет полезна разработчикам, промпт-инженерам, специалистам по контекст-инжинирингу и техническим лидерам. В ней вы найдете мои советы по оптимизации AI-агентов для автоматизации задач, а после прочтения лучше поймете, как управлять контекстом. Поводом к этой статье стал гайд Sankalp Shubham про Claude Code 2.0 и мои размышления о контекст‑инжиниринге. Здесь я совмещаю мини‑перевод ключевых идей с собственной практикой, чтобы показать, как приемы из гайда переложить на работу с любыми coding‑агентами (да и на работу вообще).

https://habr.com/ru/companies/cloud_ru/articles/1008522/

#aiагент #кодингагенты #claude_code #гайд

Habr @[email protected] · 2026-03-08 · 11:42 UTC

[Перевод] L в аббревиатуре LLM означает «ложь»

Если верить хайпу, та отрасль разработки ПО, к которой мы привыкли, уже мертва. Однако странно, что, несмотря на годы работы с ИИ-инструментарием, результаты выглядят, ощущаются и работают примерно так же, как и в начале: невзрачно. Невозможно спорить, что эту технологию окружает огромный ажиотаж. В неё вливаются сотни миллиардов долларов и создаётся масштабная инфраструктура, что, в свою очередь, требует ещё большего ажиотажа, чтобы оправдать инвестиции. Уже очевидно, что всё построено на преувеличениях — новые модели продолжают обучать для достижения целей, которых должны были, судя по обещаниям, достичь уже вышедшие в тираж модели. Поэтому позвольте мне сказать фразу, которая повергнет бывалого резидента Кремниевой долины в больший шок, чем дефекация на Маркет-стрит: не использовать ИИ совершенно нормально. Это не превратит вас в троглодита. Из-за этого вы не останетесь на обочине прогресса, который якобы несут самопровозглашённые техноволшебники и их агенты. На самом деле, такое решение выглядит гораздо менее трудным и гораздо более радостным, чем альтернатива ему.

https://habr.com/ru/articles/1007624/

#нейрослоп #кодингагенты #llm

#llm #кодингагенты #нейрослоп

Habr @[email protected] · 2026-03-08 · 11:42 UTC

[Перевод] L в аббревиатуре LLM означает «ложь»

Если верить хайпу, та отрасль разработки ПО, к которой мы привыкли, уже мертва. Однако странно, что, несмотря на годы работы с ИИ-инструментарием, результаты выглядят, ощущаются и работают примерно так же, как и в начале: невзрачно. Невозможно спорить, что эту технологию окружает огромный ажиотаж. В неё вливаются сотни миллиардов долларов и создаётся масштабная инфраструктура, что, в свою очередь, требует ещё большего ажиотажа, чтобы оправдать инвестиции. Уже очевидно, что всё построено на преувеличениях — новые модели продолжают обучать для достижения целей, которых должны были, судя по обещаниям, достичь уже вышедшие в тираж модели. Поэтому позвольте мне сказать фразу, которая повергнет бывалого резидента Кремниевой долины в больший шок, чем дефекация на Маркет-стрит: не использовать ИИ совершенно нормально. Это не превратит вас в троглодита. Из-за этого вы не останетесь на обочине прогресса, который якобы несут самопровозглашённые техноволшебники и их агенты. На самом деле, такое решение выглядит гораздо менее трудным и гораздо более радостным, чем альтернатива ему.

https://habr.com/ru/articles/1007624/

#нейрослоп #кодингагенты #llm

#llm #кодингагенты #нейрослоп

Habr @[email protected] · 2026-03-08 · 11:42 UTC

[Перевод] L в аббревиатуре LLM означает «ложь»

Если верить хайпу, та отрасль разработки ПО, к которой мы привыкли, уже мертва. Однако странно, что, несмотря на годы работы с ИИ-инструментарием, результаты выглядят, ощущаются и работают примерно так же, как и в начале: невзрачно. Невозможно спорить, что эту технологию окружает огромный ажиотаж. В неё вливаются сотни миллиардов долларов и создаётся масштабная инфраструктура, что, в свою очередь, требует ещё большего ажиотажа, чтобы оправдать инвестиции. Уже очевидно, что всё построено на преувеличениях — новые модели продолжают обучать для достижения целей, которых должны были, судя по обещаниям, достичь уже вышедшие в тираж модели. Поэтому позвольте мне сказать фразу, которая повергнет бывалого резидента Кремниевой долины в больший шок, чем дефекация на Маркет-стрит: не использовать ИИ совершенно нормально. Это не превратит вас в троглодита. Из-за этого вы не останетесь на обочине прогресса, который якобы несут самопровозглашённые техноволшебники и их агенты. На самом деле, такое решение выглядит гораздо менее трудным и гораздо более радостным, чем альтернатива ему.

https://habr.com/ru/articles/1007624/

#нейрослоп #кодингагенты #llm

#llm #кодингагенты #нейрослоп

Habr @[email protected] · 2026-03-08 · 11:42 UTC

[Перевод] L в аббревиатуре LLM означает «ложь»

Если верить хайпу, та отрасль разработки ПО, к которой мы привыкли, уже мертва. Однако странно, что, несмотря на годы работы с ИИ-инструментарием, результаты выглядят, ощущаются и работают примерно так же, как и в начале: невзрачно. Невозможно спорить, что эту технологию окружает огромный ажиотаж. В неё вливаются сотни миллиардов долларов и создаётся масштабная инфраструктура, что, в свою очередь, требует ещё большего ажиотажа, чтобы оправдать инвестиции. Уже очевидно, что всё построено на преувеличениях — новые модели продолжают обучать для достижения целей, которых должны были, судя по обещаниям, достичь уже вышедшие в тираж модели. Поэтому позвольте мне сказать фразу, которая повергнет бывалого резидента Кремниевой долины в больший шок, чем дефекация на Маркет-стрит: не использовать ИИ совершенно нормально. Это не превратит вас в троглодита. Из-за этого вы не останетесь на обочине прогресса, который якобы несут самопровозглашённые техноволшебники и их агенты. На самом деле, такое решение выглядит гораздо менее трудным и гораздо более радостным, чем альтернатива ему.

https://habr.com/ru/articles/1007624/

#нейрослоп #кодингагенты #llm

Habr @[email protected] · 2026-02-20 · 11:32 UTC

[Перевод] На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое невозможно закрывать глаза. Поэтому я написал Context Lens — трассировщик контекста, перехватывающий вызовы LLM API, чтобы показать, что же на самом деле находится в окне контекста с разбивкой по этапам. Я подключил его к четырём инструментам кодинга и дал им одну и ту же задачу. Результаты оказались настолько разными, что я решил написать об этом статью. Вопрос При работе с этими моделями мы платим за токены. Токены — это довольно сложная тема. По сути, это блоки информации; 1 токен приблизительно равен 4 символам английского текста. Чем больше токенов передаётся в модель, тем больше мы платим. Но важнее то, что токены составляют контекст модели. Контекст — это всё, что есть у модели при генерации ответа, своего рода её кратковременная память. Как и у людей, она ограничена. И чем больше нужно запоминать, тем хуже мы справляемся при ответе на детализированный вопрос. Итак, нам нужно быть аккуратными с нашим окном контекста, а для построения этого окна используются токены. Я задался вопросом: как инструменты справляются с этим ограничением? Насколько умно они его обрабатывают?

https://habr.com/ru/articles/1001866/

#claude_opus #claude_sonnet #codex #gemini #кодингагенты #иипомощники

#иипомощники #кодингагенты #gemini #codex #claude_sonnet #claude_opus

Habr @[email protected] · 2026-02-20 · 11:32 UTC

[Перевод] На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое невозможно закрывать глаза. Поэтому я написал Context Lens — трассировщик контекста, перехватывающий вызовы LLM API, чтобы показать, что же на самом деле находится в окне контекста с разбивкой по этапам. Я подключил его к четырём инструментам кодинга и дал им одну и ту же задачу. Результаты оказались настолько разными, что я решил написать об этом статью. Вопрос При работе с этими моделями мы платим за токены. Токены — это довольно сложная тема. По сути, это блоки информации; 1 токен приблизительно равен 4 символам английского текста. Чем больше токенов передаётся в модель, тем больше мы платим. Но важнее то, что токены составляют контекст модели. Контекст — это всё, что есть у модели при генерации ответа, своего рода её кратковременная память. Как и у людей, она ограничена. И чем больше нужно запоминать, тем хуже мы справляемся при ответе на детализированный вопрос. Итак, нам нужно быть аккуратными с нашим окном контекста, а для построения этого окна используются токены. Я задался вопросом: как инструменты справляются с этим ограничением? Насколько умно они его обрабатывают?

https://habr.com/ru/articles/1001866/

#claude_opus #claude_sonnet #codex #gemini #кодингагенты #иипомощники

#иипомощники #кодингагенты #gemini #codex #claude_sonnet #claude_opus

Habr @[email protected] · 2026-02-20 · 11:32 UTC

[Перевод] На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое невозможно закрывать глаза. Поэтому я написал Context Lens — трассировщик контекста, перехватывающий вызовы LLM API, чтобы показать, что же на самом деле находится в окне контекста с разбивкой по этапам. Я подключил его к четырём инструментам кодинга и дал им одну и ту же задачу. Результаты оказались настолько разными, что я решил написать об этом статью. Вопрос При работе с этими моделями мы платим за токены. Токены — это довольно сложная тема. По сути, это блоки информации; 1 токен приблизительно равен 4 символам английского текста. Чем больше токенов передаётся в модель, тем больше мы платим. Но важнее то, что токены составляют контекст модели. Контекст — это всё, что есть у модели при генерации ответа, своего рода её кратковременная память. Как и у людей, она ограничена. И чем больше нужно запоминать, тем хуже мы справляемся при ответе на детализированный вопрос. Итак, нам нужно быть аккуратными с нашим окном контекста, а для построения этого окна используются токены. Я задался вопросом: как инструменты справляются с этим ограничением? Насколько умно они его обрабатывают?

https://habr.com/ru/articles/1001866/

#claude_opus #claude_sonnet #codex #gemini #кодингагенты #иипомощники

#иипомощники #кодингагенты #gemini #codex #claude_sonnet #claude_opus

Habr @[email protected] · 2026-02-20 · 11:32 UTC

[Перевод] На что кодинг-агенты тратят наши токены

На прошлой неделе я попросил Claude устранить однострочный баг. Ему понадобилось 23 тысячи токенов. Потом тот же баг я попросил устранить Gemini. Он потратил 350 тысяч токенов. Да уж, на такое невозможно закрывать глаза. Поэтому я написал Context Lens — трассировщик контекста, перехватывающий вызовы LLM API, чтобы показать, что же на самом деле находится в окне контекста с разбивкой по этапам. Я подключил его к четырём инструментам кодинга и дал им одну и ту же задачу. Результаты оказались настолько разными, что я решил написать об этом статью. Вопрос При работе с этими моделями мы платим за токены. Токены — это довольно сложная тема. По сути, это блоки информации; 1 токен приблизительно равен 4 символам английского текста. Чем больше токенов передаётся в модель, тем больше мы платим. Но важнее то, что токены составляют контекст модели. Контекст — это всё, что есть у модели при генерации ответа, своего рода её кратковременная память. Как и у людей, она ограничена. И чем больше нужно запоминать, тем хуже мы справляемся при ответе на детализированный вопрос. Итак, нам нужно быть аккуратными с нашим окном контекста, а для построения этого окна используются токены. Я задался вопросом: как инструменты справляются с этим ограничением? Насколько умно они его обрабатывают?

https://habr.com/ru/articles/1001866/

#claude_opus #claude_sonnet #codex #gemini #кодингагенты #иипомощники

Habr @[email protected] · 2026-02-17 · 19:52 UTC

Как стать программистом: от Intel 286 до Large Language Models

В середине 90‑х я получил первый домашний компьютер — IBM‑совместимую машинку на процессоре Intel 286 . Установка Windows требовала кучу дискет, а жёсткий диск вмещал «весь» 20‑30 МБ. Информация тогда хранилась в бумажных книгах и в полках библиотек. Сейчас, спустя почти три десятилетия, обучение программированию выглядит совершенно иначе. Ниже я расскажу, как менялись возможности обучения, и почему сейчас Large Language Models (LLM) могут стать вашим личным наставником.

https://habr.com/ru/articles/1000710/

#llm #llmмодели #кодингагенты #llm_код #истории #истории_из_жизни #истории_успеха

#истории_успеха #истории_из_жизни #истории #llm_код #кодингагенты #llmмодели

Habr @[email protected] · 2026-02-17 · 19:52 UTC

Как стать программистом: от Intel 286 до Large Language Models

В середине 90‑х я получил первый домашний компьютер — IBM‑совместимую машинку на процессоре Intel 286 . Установка Windows требовала кучу дискет, а жёсткий диск вмещал «весь» 20‑30 МБ. Информация тогда хранилась в бумажных книгах и в полках библиотек. Сейчас, спустя почти три десятилетия, обучение программированию выглядит совершенно иначе. Ниже я расскажу, как менялись возможности обучения, и почему сейчас Large Language Models (LLM) могут стать вашим личным наставником.

https://habr.com/ru/articles/1000710/

#llm #llmмодели #кодингагенты #llm_код #истории #истории_из_жизни #истории_успеха

#истории_успеха #истории_из_жизни #истории #llm_код #кодингагенты #llmмодели

Habr @[email protected] · 2026-02-17 · 19:52 UTC

Как стать программистом: от Intel 286 до Large Language Models

В середине 90‑х я получил первый домашний компьютер — IBM‑совместимую машинку на процессоре Intel 286 . Установка Windows требовала кучу дискет, а жёсткий диск вмещал «весь» 20‑30 МБ. Информация тогда хранилась в бумажных книгах и в полках библиотек. Сейчас, спустя почти три десятилетия, обучение программированию выглядит совершенно иначе. Ниже я расскажу, как менялись возможности обучения, и почему сейчас Large Language Models (LLM) могут стать вашим личным наставником.

https://habr.com/ru/articles/1000710/

#llm #llmмодели #кодингагенты #llm_код #истории #истории_из_жизни #истории_успеха

#истории_успеха #истории_из_жизни #истории #llm_код #кодингагенты #llmмодели

Habr @[email protected] · 2026-02-17 · 19:52 UTC

Как стать программистом: от Intel 286 до Large Language Models

В середине 90‑х я получил первый домашний компьютер — IBM‑совместимую машинку на процессоре Intel 286 . Установка Windows требовала кучу дискет, а жёсткий диск вмещал «весь» 20‑30 МБ. Информация тогда хранилась в бумажных книгах и в полках библиотек. Сейчас, спустя почти три десятилетия, обучение программированию выглядит совершенно иначе. Ниже я расскажу, как менялись возможности обучения, и почему сейчас Large Language Models (LLM) могут стать вашим личным наставником.

https://habr.com/ru/articles/1000710/

#llm #llmмодели #кодингагенты #llm_код #истории #истории_из_жизни #истории_успеха

#llm #llmмодели #кодингагенты #llm_код #истории #истории_из_жизни

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2026-01-23 · 10:42 UTC

[Перевод] Нет никаких доказательств успешности «браузерного эксперимента» Cursor

14 января 2026 года Cursor опубликовала пост «Scaling long-running autonomous coding» ( https://cursor.com/blog/scaling-agents ). В этом посте компания рассказала о своих экспериментах с «автономной работой кодинг-агентов в течение нескольких недель» со следующей чётко поставленной целью: понять, насколько далеко мы можем продвинуться в сфере кодинга в проектах, для выполнения которых командам разработчиков обычно требуются месяцы Компания рассказала о подходах, которые она попробовала, о предполагаемых причинах их провала и о том, как решались эти проблемы. Наконец она достигла этапа, на котором нечто «решило большинство наших проблем с координацией и позволило масштабироваться до очень больших проектов», что, в свою очередь, привело к следующему: Чтобы протестировать эту систему, мы поставили перед собой амбициозную цель: создание веб-браузера с нуля. Агенты работали примерно неделю и написали больше миллиона строк кода в тысяче файлов. Исходный код можно посмотреть в GitHub ( https://github.com/wilsonzlin/fastrender ) И здесь объяснения становятся немного запутанными и нечёткими. Компания заявляет, что «несмотря на размер кодовой базы, новые агенты всё равно понимают её и добиваются существенного прогресса» и что «сотни воркеров работают конкурентно, выполняя пушинг в одну и ту же ветвь с минимальными конфликтами», но ни разу не говорит, был ли проект успешным, работает ли он на самом деле. Можем ли мы сами запустить этот браузер? Это неясно, и компания ни разу не сделала подобных чётких заявлений.

https://habr.com/ru/articles/988240/

#кодингагенты #cursor #генерация_кода

#генерация_кода #cursor #кодингагенты

Habr @[email protected] · 2026-01-23 · 10:42 UTC

[Перевод] Нет никаких доказательств успешности «браузерного эксперимента» Cursor

14 января 2026 года Cursor опубликовала пост «Scaling long-running autonomous coding» ( https://cursor.com/blog/scaling-agents ). В этом посте компания рассказала о своих экспериментах с «автономной работой кодинг-агентов в течение нескольких недель» со следующей чётко поставленной целью: понять, насколько далеко мы можем продвинуться в сфере кодинга в проектах, для выполнения которых командам разработчиков обычно требуются месяцы Компания рассказала о подходах, которые она попробовала, о предполагаемых причинах их провала и о том, как решались эти проблемы. Наконец она достигла этапа, на котором нечто «решило большинство наших проблем с координацией и позволило масштабироваться до очень больших проектов», что, в свою очередь, привело к следующему: Чтобы протестировать эту систему, мы поставили перед собой амбициозную цель: создание веб-браузера с нуля. Агенты работали примерно неделю и написали больше миллиона строк кода в тысяче файлов. Исходный код можно посмотреть в GitHub ( https://github.com/wilsonzlin/fastrender ) И здесь объяснения становятся немного запутанными и нечёткими. Компания заявляет, что «несмотря на размер кодовой базы, новые агенты всё равно понимают её и добиваются существенного прогресса» и что «сотни воркеров работают конкурентно, выполняя пушинг в одну и ту же ветвь с минимальными конфликтами», но ни разу не говорит, был ли проект успешным, работает ли он на самом деле. Можем ли мы сами запустить этот браузер? Это неясно, и компания ни разу не сделала подобных чётких заявлений.

https://habr.com/ru/articles/988240/

#кодингагенты #cursor #генерация_кода

#генерация_кода #cursor #кодингагенты

Habr @[email protected] · 2026-01-23 · 10:42 UTC

[Перевод] Нет никаких доказательств успешности «браузерного эксперимента» Cursor

14 января 2026 года Cursor опубликовала пост «Scaling long-running autonomous coding» ( https://cursor.com/blog/scaling-agents ). В этом посте компания рассказала о своих экспериментах с «автономной работой кодинг-агентов в течение нескольких недель» со следующей чётко поставленной целью: понять, насколько далеко мы можем продвинуться в сфере кодинга в проектах, для выполнения которых командам разработчиков обычно требуются месяцы Компания рассказала о подходах, которые она попробовала, о предполагаемых причинах их провала и о том, как решались эти проблемы. Наконец она достигла этапа, на котором нечто «решило большинство наших проблем с координацией и позволило масштабироваться до очень больших проектов», что, в свою очередь, привело к следующему: Чтобы протестировать эту систему, мы поставили перед собой амбициозную цель: создание веб-браузера с нуля. Агенты работали примерно неделю и написали больше миллиона строк кода в тысяче файлов. Исходный код можно посмотреть в GitHub ( https://github.com/wilsonzlin/fastrender ) И здесь объяснения становятся немного запутанными и нечёткими. Компания заявляет, что «несмотря на размер кодовой базы, новые агенты всё равно понимают её и добиваются существенного прогресса» и что «сотни воркеров работают конкурентно, выполняя пушинг в одну и ту же ветвь с минимальными конфликтами», но ни разу не говорит, был ли проект успешным, работает ли он на самом деле. Можем ли мы сами запустить этот браузер? Это неясно, и компания ни разу не сделала подобных чётких заявлений.

https://habr.com/ru/articles/988240/

#кодингагенты #cursor #генерация_кода

#генерация_кода #cursor #кодингагенты

Habr @[email protected] · 2026-01-23 · 10:42 UTC

[Перевод] Нет никаких доказательств успешности «браузерного эксперимента» Cursor

14 января 2026 года Cursor опубликовала пост «Scaling long-running autonomous coding» ( https://cursor.com/blog/scaling-agents ). В этом посте компания рассказала о своих экспериментах с «автономной работой кодинг-агентов в течение нескольких недель» со следующей чётко поставленной целью: понять, насколько далеко мы можем продвинуться в сфере кодинга в проектах, для выполнения которых командам разработчиков обычно требуются месяцы Компания рассказала о подходах, которые она попробовала, о предполагаемых причинах их провала и о том, как решались эти проблемы. Наконец она достигла этапа, на котором нечто «решило большинство наших проблем с координацией и позволило масштабироваться до очень больших проектов», что, в свою очередь, привело к следующему: Чтобы протестировать эту систему, мы поставили перед собой амбициозную цель: создание веб-браузера с нуля. Агенты работали примерно неделю и написали больше миллиона строк кода в тысяче файлов. Исходный код можно посмотреть в GitHub ( https://github.com/wilsonzlin/fastrender ) И здесь объяснения становятся немного запутанными и нечёткими. Компания заявляет, что «несмотря на размер кодовой базы, новые агенты всё равно понимают её и добиваются существенного прогресса» и что «сотни воркеров работают конкурентно, выполняя пушинг в одну и ту же ветвь с минимальными конфликтами», но ни разу не говорит, был ли проект успешным, работает ли он на самом деле. Можем ли мы сами запустить этот браузер? Это неясно, и компания ни разу не сделала подобных чётких заявлений.

https://habr.com/ru/articles/988240/

#кодингагенты #cursor #генерация_кода

Habr @[email protected] · 2026-01-10 · 13:02 UTC

[Перевод] А король-то голый! Как написать свой Claude Code в 200 строках кода

Современные кодинг-помощники кажутся магией. Достаточно описать нужное вам на хотя бы немного понятными словами, после чего они сами читают файлы, редактируют проект и пишут работающий код. Но вот что я вам скажу: в основе этих инструментов не лежит магия. Для них достаточно примерно двухсот строк простого Python. Давайте с нуля напишем собственный функциональный кодинг-агент.

https://habr.com/ru/articles/983968/

#иипомощники #claude_code #llm #большие_языковые_модели #кодингагенты #cursor #github_copilot

#github_copilot #cursor #кодингагенты #большие_языковые_модели #llm #claude_code

Habr @[email protected] · 2026-01-10 · 13:02 UTC

[Перевод] А король-то голый! Как написать свой Claude Code в 200 строках кода

Современные кодинг-помощники кажутся магией. Достаточно описать нужное вам на хотя бы немного понятными словами, после чего они сами читают файлы, редактируют проект и пишут работающий код. Но вот что я вам скажу: в основе этих инструментов не лежит магия. Для них достаточно примерно двухсот строк простого Python. Давайте с нуля напишем собственный функциональный кодинг-агент.

https://habr.com/ru/articles/983968/

#иипомощники #claude_code #llm #большие_языковые_модели #кодингагенты #cursor #github_copilot

#github_copilot #cursor #кодингагенты #большие_языковые_модели #llm #claude_code

Habr @[email protected] · 2026-01-10 · 13:02 UTC

[Перевод] А король-то голый! Как написать свой Claude Code в 200 строках кода

Современные кодинг-помощники кажутся магией. Достаточно описать нужное вам на хотя бы немного понятными словами, после чего они сами читают файлы, редактируют проект и пишут работающий код. Но вот что я вам скажу: в основе этих инструментов не лежит магия. Для них достаточно примерно двухсот строк простого Python. Давайте с нуля напишем собственный функциональный кодинг-агент.

https://habr.com/ru/articles/983968/

#иипомощники #claude_code #llm #большие_языковые_модели #кодингагенты #cursor #github_copilot

#github_copilot #cursor #кодингагенты #большие_языковые_модели #llm #claude_code

Habr @[email protected] · 2026-01-10 · 13:02 UTC

[Перевод] А король-то голый! Как написать свой Claude Code в 200 строках кода

Современные кодинг-помощники кажутся магией. Достаточно описать нужное вам на хотя бы немного понятными словами, после чего они сами читают файлы, редактируют проект и пишут работающий код. Но вот что я вам скажу: в основе этих инструментов не лежит магия. Для них достаточно примерно двухсот строк простого Python. Давайте с нуля напишем собственный функциональный кодинг-агент.

https://habr.com/ru/articles/983968/

#иипомощники #claude_code #llm #большие_языковые_модели #кодингагенты #cursor #github_copilot

#иипомощники #claude_code #llm #большие_языковые_модели #кодингагенты #cursor

Habr @[email protected] · 2025-12-24 · 09:42 UTC

[Перевод] Ваша работа — выпускать код, который доказанно работает

Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью. Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО. Ваша задача — выпускать код, который доказанно работает. Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать код, который работает , и приложить к нему доказательство его работы. Если вы этого не делаете, то просто сбрасываете бремя настоящей работы на того, кто должен будет проверять ваш код.

https://habr.com/ru/articles/980006/

#llm #тесты #кодингагенты

#кодингагенты #тесты #llm

Habr @[email protected] · 2025-12-24 · 09:42 UTC

[Перевод] Ваша работа — выпускать код, который доказанно работает

Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью. Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО. Ваша задача — выпускать код, который доказанно работает. Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать код, который работает , и приложить к нему доказательство его работы. Если вы этого не делаете, то просто сбрасываете бремя настоящей работы на того, кто должен будет проверять ваш код.

https://habr.com/ru/articles/980006/

#llm #тесты #кодингагенты

#кодингагенты #тесты #llm

Habr @[email protected] · 2025-12-24 · 09:42 UTC

[Перевод] Ваша работа — выпускать код, который доказанно работает

Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью. Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО. Ваша задача — выпускать код, который доказанно работает. Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать код, который работает , и приложить к нему доказательство его работы. Если вы этого не делаете, то просто сбрасываете бремя настоящей работы на того, кто должен будет проверять ваш код.

https://habr.com/ru/articles/980006/

#llm #тесты #кодингагенты

#кодингагенты #тесты #llm

Habr @[email protected] · 2025-12-24 · 09:42 UTC

[Перевод] Ваша работа — выпускать код, который доказанно работает

Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью. Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО. Ваша задача — выпускать код, который доказанно работает. Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать код, который работает , и приложить к нему доказательство его работы. Если вы этого не делаете, то просто сбрасываете бремя настоящей работы на того, кто должен будет проверять ваш код.

https://habr.com/ru/articles/980006/

#llm #тесты #кодингагенты

Habr @[email protected] · 2025-12-10 · 13:12 UTC

[Перевод] Как я воссоздал веб-сайт 1996 года при помощи Claude

Вчера до вершины популярности Hacker News добрался этот пост Джоны Гловера: Может ли Claude воссоздать веб-сайт Space Jam из 1996 года? Нет. Или, по крайней мере, не с моими навыками промптинга. Требуется помощь, потому что я хочу сохранить этот веб-сайт навечно, но это никак нельзя сделать, кроме как попросить Claude воссоздать его из скриншота. Поверьте мне, я менеджер по разработке со степенью по computer science. Пожалуйста, помогите 😞 Чтобы уточнить подробности своей просьбы, Джона передал Claude Code (Opus 4.1) скриншот лэндинга, папку с изображениями и следующий промпт: Я даю тебе: 1. Полный скриншот страницы лэндинга Space Jam. 2. Папку с сырыми графическими ресурсами**, извлечёнными с исходного сайта Твоя задача — максимально точно воссоздать страницу лэндинга в полном соответствии со скриншотом. С подобными задачами кодинг-агенты справляются идеально . Как я часто говорю, все задачи — это задачи поиска, но этот принцип не всегда просто применить на практике. Однако в данном случае применить его очень просто! У нас есть скриншот, поэтому diff пикселей сильно упрощает работу! Вообще, можно сказать, что сам по себе Claude Code не смог бы с этим справиться. Но Claude с конфигурациями nori 1 просто обязан это сделать. Так что вызов принят.

https://habr.com/ru/companies/ruvds/articles/974834/

#вёрстка #claude_code #кодингагенты #ииагенты #playwright #ruvds_перевод

#ruvds_перевод #playwright #ииагенты #кодингагенты #claude_code #вёрстка

Habr @[email protected] · 2025-12-10 · 13:12 UTC

[Перевод] Как я воссоздал веб-сайт 1996 года при помощи Claude

Вчера до вершины популярности Hacker News добрался этот пост Джоны Гловера: Может ли Claude воссоздать веб-сайт Space Jam из 1996 года? Нет. Или, по крайней мере, не с моими навыками промптинга. Требуется помощь, потому что я хочу сохранить этот веб-сайт навечно, но это никак нельзя сделать, кроме как попросить Claude воссоздать его из скриншота. Поверьте мне, я менеджер по разработке со степенью по computer science. Пожалуйста, помогите 😞 Чтобы уточнить подробности своей просьбы, Джона передал Claude Code (Opus 4.1) скриншот лэндинга, папку с изображениями и следующий промпт: Я даю тебе: 1. Полный скриншот страницы лэндинга Space Jam. 2. Папку с сырыми графическими ресурсами**, извлечёнными с исходного сайта Твоя задача — максимально точно воссоздать страницу лэндинга в полном соответствии со скриншотом. С подобными задачами кодинг-агенты справляются идеально . Как я часто говорю, все задачи — это задачи поиска, но этот принцип не всегда просто применить на практике. Однако в данном случае применить его очень просто! У нас есть скриншот, поэтому diff пикселей сильно упрощает работу! Вообще, можно сказать, что сам по себе Claude Code не смог бы с этим справиться. Но Claude с конфигурациями nori 1 просто обязан это сделать. Так что вызов принят.

https://habr.com/ru/companies/ruvds/articles/974834/

#вёрстка #claude_code #кодингагенты #ииагенты #playwright #ruvds_перевод

#ruvds_перевод #playwright #ииагенты #кодингагенты #claude_code #вёрстка

Habr @[email protected] · 2025-12-10 · 13:12 UTC

[Перевод] Как я воссоздал веб-сайт 1996 года при помощи Claude

Вчера до вершины популярности Hacker News добрался этот пост Джоны Гловера: Может ли Claude воссоздать веб-сайт Space Jam из 1996 года? Нет. Или, по крайней мере, не с моими навыками промптинга. Требуется помощь, потому что я хочу сохранить этот веб-сайт навечно, но это никак нельзя сделать, кроме как попросить Claude воссоздать его из скриншота. Поверьте мне, я менеджер по разработке со степенью по computer science. Пожалуйста, помогите 😞 Чтобы уточнить подробности своей просьбы, Джона передал Claude Code (Opus 4.1) скриншот лэндинга, папку с изображениями и следующий промпт: Я даю тебе: 1. Полный скриншот страницы лэндинга Space Jam. 2. Папку с сырыми графическими ресурсами**, извлечёнными с исходного сайта Твоя задача — максимально точно воссоздать страницу лэндинга в полном соответствии со скриншотом. С подобными задачами кодинг-агенты справляются идеально . Как я часто говорю, все задачи — это задачи поиска, но этот принцип не всегда просто применить на практике. Однако в данном случае применить его очень просто! У нас есть скриншот, поэтому diff пикселей сильно упрощает работу! Вообще, можно сказать, что сам по себе Claude Code не смог бы с этим справиться. Но Claude с конфигурациями nori 1 просто обязан это сделать. Так что вызов принят.

https://habr.com/ru/companies/ruvds/articles/974834/

#вёрстка #claude_code #кодингагенты #ииагенты #playwright #ruvds_перевод

#ruvds_перевод #playwright #ииагенты #кодингагенты #claude_code #вёрстка

Habr @[email protected] · 2025-12-10 · 13:12 UTC

[Перевод] Как я воссоздал веб-сайт 1996 года при помощи Claude

Вчера до вершины популярности Hacker News добрался этот пост Джоны Гловера: Может ли Claude воссоздать веб-сайт Space Jam из 1996 года? Нет. Или, по крайней мере, не с моими навыками промптинга. Требуется помощь, потому что я хочу сохранить этот веб-сайт навечно, но это никак нельзя сделать, кроме как попросить Claude воссоздать его из скриншота. Поверьте мне, я менеджер по разработке со степенью по computer science. Пожалуйста, помогите 😞 Чтобы уточнить подробности своей просьбы, Джона передал Claude Code (Opus 4.1) скриншот лэндинга, папку с изображениями и следующий промпт: Я даю тебе: 1. Полный скриншот страницы лэндинга Space Jam. 2. Папку с сырыми графическими ресурсами**, извлечёнными с исходного сайта Твоя задача — максимально точно воссоздать страницу лэндинга в полном соответствии со скриншотом. С подобными задачами кодинг-агенты справляются идеально . Как я часто говорю, все задачи — это задачи поиска, но этот принцип не всегда просто применить на практике. Однако в данном случае применить его очень просто! У нас есть скриншот, поэтому diff пикселей сильно упрощает работу! Вообще, можно сказать, что сам по себе Claude Code не смог бы с этим справиться. Но Claude с конфигурациями nori 1 просто обязан это сделать. Так что вызов принят.

https://habr.com/ru/companies/ruvds/articles/974834/

#вёрстка #claude_code #кодингагенты #ииагенты #playwright #ruvds_перевод

Habr @[email protected] · 2025-11-06 · 11:12 UTC

Codex: как много в этом звуке. Агент-разработчик от openai который входит в вашу подписку на ChatGPT за 20$

Всем привет! Недавно я делился своим обзором на Devin , в котором рассказал как потратил 500 долларов на вайбкодинг AI‑редактора и остался не особо доволен – он хоть и справился, но было дорого и долго. Продолжаю поиск своего идеального кодинг‑агента и сегодня разбираюсь в Codex от OpenAI.

https://habr.com/ru/articles/958886/

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding #nextjs #devin #vibecoding #вайбкодинг

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding

Habr @[email protected] · 2025-11-06 · 11:12 UTC

Codex: как много в этом звуке. Агент-разработчик от openai который входит в вашу подписку на ChatGPT за 20$

Всем привет! Недавно я делился своим обзором на Devin , в котором рассказал как потратил 500 долларов на вайбкодинг AI‑редактора и остался не особо доволен – он хоть и справился, но было дорого и долго. Продолжаю поиск своего идеального кодинг‑агента и сегодня разбираюсь в Codex от OpenAI.

https://habr.com/ru/articles/958886/

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding #nextjs #devin #vibecoding #вайбкодинг

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding

Habr @[email protected] · 2025-11-06 · 11:12 UTC

Codex: как много в этом звуке. Агент-разработчик от openai который входит в вашу подписку на ChatGPT за 20$

Всем привет! Недавно я делился своим обзором на Devin , в котором рассказал как потратил 500 долларов на вайбкодинг AI‑редактора и остался не особо доволен – он хоть и справился, но было дорого и долго. Продолжаю поиск своего идеального кодинг‑агента и сегодня разбираюсь в Codex от OpenAI.

https://habr.com/ru/articles/958886/

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding #nextjs #devin #vibecoding #вайбкодинг

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding

Habr @[email protected] · 2025-11-06 · 11:12 UTC

Codex: как много в этом звуке. Агент-разработчик от openai который входит в вашу подписку на ChatGPT за 20$

Всем привет! Недавно я делился своим обзором на Devin , в котором рассказал как потратил 500 долларов на вайбкодинг AI‑редактора и остался не особо доволен – он хоть и справился, но было дорого и долго. Продолжаю поиск своего идеального кодинг‑агента и сегодня разбираюсь в Codex от OpenAI.

https://habr.com/ru/articles/958886/

#codex #openai #chatgpt #кодинг_ассистенты #кодингагенты #ai_coding #nextjs #devin #vibecoding #вайбкодинг

#вайбкодинг #vibecoding #devin #nextjs #ai_coding #кодингагенты

Habr @[email protected] · 2025-09-24 · 11:02 UTC

[Перевод] Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на умение выстраивать собственный набор инструментов для продуктивности. Модель выдала целый арсенал CLI-утилит в духе Unix, но… отказалась ими пользоваться. Почему так случилось и что это говорит о будущем кодинг-агентов — разбираем в статье.

https://habr.com/ru/companies/magnus-tech/articles/949536/

#искусственный_интеллект #машинное_обучение #самосовершенствование_ИИ #кодингагенты #инструменты_разработчика #GPT5 #claude_opus #ииагенты_для_разработки

#искусственный_интеллект #машинное_обучение #самосовершенствование_ии #кодингагенты #инструменты_разработчика #gpt5

Habr @[email protected] · 2025-09-24 · 11:02 UTC

[Перевод] Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на умение выстраивать собственный набор инструментов для продуктивности. Модель выдала целый арсенал CLI-утилит в духе Unix, но… отказалась ими пользоваться. Почему так случилось и что это говорит о будущем кодинг-агентов — разбираем в статье.

https://habr.com/ru/companies/magnus-tech/articles/949536/

#искусственный_интеллект #машинное_обучение #самосовершенствование_ИИ #кодингагенты #инструменты_разработчика #GPT5 #claude_opus #ииагенты_для_разработки

#искусственный_интеллект #машинное_обучение #самосовершенствование_ии #кодингагенты #инструменты_разработчика #gpt5

Habr @[email protected] · 2025-09-24 · 11:02 UTC

[Перевод] Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на умение выстраивать собственный набор инструментов для продуктивности. Модель выдала целый арсенал CLI-утилит в духе Unix, но… отказалась ими пользоваться. Почему так случилось и что это говорит о будущем кодинг-агентов — разбираем в статье.

https://habr.com/ru/companies/magnus-tech/articles/949536/

#искусственный_интеллект #машинное_обучение #самосовершенствование_ИИ #кодингагенты #инструменты_разработчика #GPT5 #claude_opus #ииагенты_для_разработки

#искусственный_интеллект #машинное_обучение #самосовершенствование_ии #кодингагенты #инструменты_разработчика #gpt5

Habr @[email protected] · 2025-09-24 · 11:02 UTC

[Перевод] Могут ли кодинг-агенты самосовершенствоваться?

Представьте программиста, который мастерски собирает для себя вспомогательные утилиты, а потом равнодушно отмахивается: «Честно? Мне они не нужны». Именно так повела себя GPT-5 в ходе теста на умение выстраивать собственный набор инструментов для продуктивности. Модель выдала целый арсенал CLI-утилит в духе Unix, но… отказалась ими пользоваться. Почему так случилось и что это говорит о будущем кодинг-агентов — разбираем в статье.

https://habr.com/ru/companies/magnus-tech/articles/949536/

#искусственный_интеллект #машинное_обучение #самосовершенствование_ИИ #кодингагенты #инструменты_разработчика #GPT5 #claude_opus #ииагенты_для_разработки

#ииагенты_для_разработки #claude_opus #gpt5 #инструменты_разработчика #кодингагенты #самосовершенствование_ии