home.social

#context_engineering — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #context_engineering, aggregated by home.social.

  1. Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

    На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — память нейросетей. У всех современных топовых моделей появились гигантские окна контекста — от миллиона токенов. Кажется, что теперь туда можно просто закинуть всю историю переписки, все корпоративные методички, и агент сам во всём разберётся или не разберётся?.. В статье разбираем реальный кейс — как мы управляем памятью ИИ-агента, чтобы он отвечал быстро, точно и не сжигал бюджет на токены впустую. Внутри — наглядные графики, три механизма очистки памяти и хитрый инженерный трюк с изолированным субагентом-аудитором.

    habr.com/ru/companies/llmstart

    #LangChain #ИИагенты #RAG #context_engineering #LLM #AIdriven_разработка #llmstart #контекстинжиниринг #production #productionready

  2. Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

    На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — память нейросетей. У всех современных топовых моделей появились гигантские окна контекста — от миллиона токенов. Кажется, что теперь туда можно просто закинуть всю историю переписки, все корпоративные методички, и агент сам во всём разберётся или не разберётся?.. В статье разбираем реальный кейс — как мы управляем памятью ИИ-агента, чтобы он отвечал быстро, точно и не сжигал бюджет на токены впустую. Внутри — наглядные графики, три механизма очистки памяти и хитрый инженерный трюк с изолированным субагентом-аудитором.

    habr.com/ru/companies/llmstart

    #LangChain #ИИагенты #RAG #context_engineering #LLM #AIdriven_разработка #llmstart #контекстинжиниринг #production #productionready

  3. Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

    На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — память нейросетей. У всех современных топовых моделей появились гигантские окна контекста — от миллиона токенов. Кажется, что теперь туда можно просто закинуть всю историю переписки, все корпоративные методички, и агент сам во всём разберётся или не разберётся?.. В статье разбираем реальный кейс — как мы управляем памятью ИИ-агента, чтобы он отвечал быстро, точно и не сжигал бюджет на токены впустую. Внутри — наглядные графики, три механизма очистки памяти и хитрый инженерный трюк с изолированным субагентом-аудитором.

    habr.com/ru/companies/llmstart

    #LangChain #ИИагенты #RAG #context_engineering #LLM #AIdriven_разработка #llmstart #контекстинжиниринг #production #productionready

  4. Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

    На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — память нейросетей. У всех современных топовых моделей появились гигантские окна контекста — от миллиона токенов. Кажется, что теперь туда можно просто закинуть всю историю переписки, все корпоративные методички, и агент сам во всём разберётся или не разберётся?.. В статье разбираем реальный кейс — как мы управляем памятью ИИ-агента, чтобы он отвечал быстро, точно и не сжигал бюджет на токены впустую. Внутри — наглядные графики, три механизма очистки памяти и хитрый инженерный трюк с изолированным субагентом-аудитором.

    habr.com/ru/companies/llmstart

    #LangChain #ИИагенты #RAG #context_engineering #LLM #AIdriven_разработка #llmstart #контекстинжиниринг #production #productionready

  5. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  6. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  7. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  8. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  9. От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

    На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

    habr.com/ru/companies/llmstart

    #RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

  10. От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

    На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

    habr.com/ru/companies/llmstart

    #RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

  11. От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

    На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

    habr.com/ru/companies/llmstart

    #RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

  12. От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

    На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С:УНФ, который помогает отвечать на вопросы клиентов по базе знаний, реальным диалогам поддержки и контексту конкретного обращения. Разберу всю хронологию, нюансы и путь от первой гипотезы до продакшена, которым уже пользуются клиенты. Для бизнеса этот кейс интересен как пример реальной автоматизации через ИИ: сначала ассистент для сотрудников, потом сервис для клиентов. Для технарей — подходом, где решение эволюционировало от RAG-прототипа к агенту на основании данных и метрик, а не потому, что «так модно».

    habr.com/ru/companies/llmstart

    #RAG #LLM #ИИагенты #LangChain #LangFuse #Ragas #метрики_качества #context_engineering #мультимодальность #ии

  13. Анатомия production AI агента: разбор двух открытых промптов Anthropic

    Что должно быть в теле production AI агента? Не «один длинный промпт», а структурированная система: роль, бюджет вызовов, OODA loop, потолки ресурсов, разделение ответственности между агентами. Разбираю два открытых промпта от Anthropic ( research_lead_agent.md и research_subagent.md ), собираю чек-лист из 13 блоков и шаблон SKILL.md . На руки — конкретный артефакт, по которому можно пройтись по своему агенту.

    habr.com/ru/articles/1035948/

    #claude #anthropic #aiагенты #llm #context_engineering #agent_skills #system_prompt #claude_code #multiagent

  14. Анатомия production AI агента: разбор двух открытых промптов Anthropic

    Что должно быть в теле production AI агента? Не «один длинный промпт», а структурированная система: роль, бюджет вызовов, OODA loop, потолки ресурсов, разделение ответственности между агентами. Разбираю два открытых промпта от Anthropic ( research_lead_agent.md и research_subagent.md ), собираю чек-лист из 13 блоков и шаблон SKILL.md . На руки — конкретный артефакт, по которому можно пройтись по своему агенту.

    habr.com/ru/articles/1035948/

    #claude #anthropic #aiагенты #llm #context_engineering #agent_skills #system_prompt #claude_code #multiagent

  15. Анатомия production AI агента: разбор двух открытых промптов Anthropic

    Что должно быть в теле production AI агента? Не «один длинный промпт», а структурированная система: роль, бюджет вызовов, OODA loop, потолки ресурсов, разделение ответственности между агентами. Разбираю два открытых промпта от Anthropic ( research_lead_agent.md и research_subagent.md ), собираю чек-лист из 13 блоков и шаблон SKILL.md . На руки — конкретный артефакт, по которому можно пройтись по своему агенту.

    habr.com/ru/articles/1035948/

    #claude #anthropic #aiагенты #llm #context_engineering #agent_skills #system_prompt #claude_code #multiagent

  16. Анатомия production AI агента: разбор двух открытых промптов Anthropic

    Что должно быть в теле production AI агента? Не «один длинный промпт», а структурированная система: роль, бюджет вызовов, OODA loop, потолки ресурсов, разделение ответственности между агентами. Разбираю два открытых промпта от Anthropic ( research_lead_agent.md и research_subagent.md ), собираю чек-лист из 13 блоков и шаблон SKILL.md . На руки — конкретный артефакт, по которому можно пройтись по своему агенту.

    habr.com/ru/articles/1035948/

    #claude #anthropic #aiагенты #llm #context_engineering #agent_skills #system_prompt #claude_code #multiagent

  17. Harness вокруг LLM: что я понял за полтора года ежедневной работы

    Полтора года в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный. Англоязычные инженеры называют эту обвязку harness . Это контур, в котором живёт модель: системный промпт, инструменты, контекст, скиллы, хуки, разрешения и память. Без него даже флагманский Claude или Codex работает как экскаватор без рычагов — мощность есть, использовать нечем. У русского аналога одного короткого слова пока нет, поэтому ниже — harness и обвязка вперемешку.

    habr.com/ru/articles/1035812/

    #LLM #Claude_Code #AIагенты #prompt_engineering #harness #Anthropic #context_engineering #Agent_Skills #llmstxt #vibecoding

  18. Harness вокруг LLM: что я понял за полтора года ежедневной работы

    Полтора года в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный. Англоязычные инженеры называют эту обвязку harness . Это контур, в котором живёт модель: системный промпт, инструменты, контекст, скиллы, хуки, разрешения и память. Без него даже флагманский Claude или Codex работает как экскаватор без рычагов — мощность есть, использовать нечем. У русского аналога одного короткого слова пока нет, поэтому ниже — harness и обвязка вперемешку.

    habr.com/ru/articles/1035812/

    #LLM #Claude_Code #AIагенты #prompt_engineering #harness #Anthropic #context_engineering #Agent_Skills #llmstxt #vibecoding

  19. Harness вокруг LLM: что я понял за полтора года ежедневной работы

    Полтора года в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный. Англоязычные инженеры называют эту обвязку harness . Это контур, в котором живёт модель: системный промпт, инструменты, контекст, скиллы, хуки, разрешения и память. Без него даже флагманский Claude или Codex работает как экскаватор без рычагов — мощность есть, использовать нечем. У русского аналога одного короткого слова пока нет, поэтому ниже — harness и обвязка вперемешку.

    habr.com/ru/articles/1035812/

    #LLM #Claude_Code #AIагенты #prompt_engineering #harness #Anthropic #context_engineering #Agent_Skills #llmstxt #vibecoding

  20. Harness вокруг LLM: что я понял за полтора года ежедневной работы

    Полтора года в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный. Англоязычные инженеры называют эту обвязку harness . Это контур, в котором живёт модель: системный промпт, инструменты, контекст, скиллы, хуки, разрешения и память. Без него даже флагманский Claude или Codex работает как экскаватор без рычагов — мощность есть, использовать нечем. У русского аналога одного короткого слова пока нет, поэтому ниже — harness и обвязка вперемешку.

    habr.com/ru/articles/1035812/

    #LLM #Claude_Code #AIагенты #prompt_engineering #harness #Anthropic #context_engineering #Agent_Skills #llmstxt #vibecoding

  21. [Перевод] Ваш харнес, ваша память

    Agent harness'ы стали основным способом построения агентов, и это надолго. Они неразрывно связаны с памятью агента. Если вы используете закрытый харнес — особенно за проприетарным API — вы добровольно передаёте контроль над памятью своего агента третьей стороне. Память критически важна для создания хороших и удобных агентных систем, а значит, это создаёт колоссальную привязку к платформе. Память — а вместе с ней и харнесы — должны быть открытыми, чтобы вы владели своими данными.

    habr.com/ru/articles/1023156/

    #agent_harness #агентная_память #LLM_агенты #vendor_lockin #open_source_агенты #context_engineering #stateful_агенты #Claude_Code #LangChain #modelagnostic

  22. [Перевод] Ваш харнес, ваша память

    Agent harness'ы стали основным способом построения агентов, и это надолго. Они неразрывно связаны с памятью агента. Если вы используете закрытый харнес — особенно за проприетарным API — вы добровольно передаёте контроль над памятью своего агента третьей стороне. Память критически важна для создания хороших и удобных агентных систем, а значит, это создаёт колоссальную привязку к платформе. Память — а вместе с ней и харнесы — должны быть открытыми, чтобы вы владели своими данными.

    habr.com/ru/articles/1023156/

    #agent_harness #агентная_память #LLM_агенты #vendor_lockin #open_source_агенты #context_engineering #stateful_агенты #Claude_Code #LangChain #modelagnostic

  23. [Перевод] Ваш харнес, ваша память

    Agent harness'ы стали основным способом построения агентов, и это надолго. Они неразрывно связаны с памятью агента. Если вы используете закрытый харнес — особенно за проприетарным API — вы добровольно передаёте контроль над памятью своего агента третьей стороне. Память критически важна для создания хороших и удобных агентных систем, а значит, это создаёт колоссальную привязку к платформе. Память — а вместе с ней и харнесы — должны быть открытыми, чтобы вы владели своими данными.

    habr.com/ru/articles/1023156/

    #agent_harness #агентная_память #LLM_агенты #vendor_lockin #open_source_агенты #context_engineering #stateful_агенты #Claude_Code #LangChain #modelagnostic

  24. [Перевод] Ваш харнес, ваша память

    Agent harness'ы стали основным способом построения агентов, и это надолго. Они неразрывно связаны с памятью агента. Если вы используете закрытый харнес — особенно за проприетарным API — вы добровольно передаёте контроль над памятью своего агента третьей стороне. Память критически важна для создания хороших и удобных агентных систем, а значит, это создаёт колоссальную привязку к платформе. Память — а вместе с ней и харнесы — должны быть открытыми, чтобы вы владели своими данными.

    habr.com/ru/articles/1023156/

    #agent_harness #агентная_память #LLM_агенты #vendor_lockin #open_source_агенты #context_engineering #stateful_агенты #Claude_Code #LangChain #modelagnostic

  25. Как меняется delivery, когда в команде появляются агенты

    AI уже ускоряет создание кода, ADR и документации, но одновременно повышает нагрузку на ревью, проверку и контроль стабильности. Поэтому следующий шаг для инженерных команд - не просто встроить AI в текущий SDLC, а пересобрать сам процесс поставки вокруг контекста, harness, quality gates и learning loop.

    habr.com/ru/articles/1012654/

    #AInative_SDLC #SDLC #LLM #coding_agents #agentic_delivery #software_delivery #harness_engineering #context_engineering #platform_engineering #управление_разработкой

  26. Как меняется delivery, когда в команде появляются агенты

    AI уже ускоряет создание кода, ADR и документации, но одновременно повышает нагрузку на ревью, проверку и контроль стабильности. Поэтому следующий шаг для инженерных команд - не просто встроить AI в текущий SDLC, а пересобрать сам процесс поставки вокруг контекста, harness, quality gates и learning loop.

    habr.com/ru/articles/1012654/

    #AInative_SDLC #SDLC #LLM #coding_agents #agentic_delivery #software_delivery #harness_engineering #context_engineering #platform_engineering #управление_разработкой

  27. Как меняется delivery, когда в команде появляются агенты

    AI уже ускоряет создание кода, ADR и документации, но одновременно повышает нагрузку на ревью, проверку и контроль стабильности. Поэтому следующий шаг для инженерных команд - не просто встроить AI в текущий SDLC, а пересобрать сам процесс поставки вокруг контекста, harness, quality gates и learning loop.

    habr.com/ru/articles/1012654/

    #AInative_SDLC #SDLC #LLM #coding_agents #agentic_delivery #software_delivery #harness_engineering #context_engineering #platform_engineering #управление_разработкой

  28. Как меняется delivery, когда в команде появляются агенты

    AI уже ускоряет создание кода, ADR и документации, но одновременно повышает нагрузку на ревью, проверку и контроль стабильности. Поэтому следующий шаг для инженерных команд - не просто встроить AI в текущий SDLC, а пересобрать сам процесс поставки вокруг контекста, harness, quality gates и learning loop.

    habr.com/ru/articles/1012654/

    #AInative_SDLC #SDLC #LLM #coding_agents #agentic_delivery #software_delivery #harness_engineering #context_engineering #platform_engineering #управление_разработкой

  29. [Перевод] Skills для Claude Code: огромный гайд от инженера Anthropic

    Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять. Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими? Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

    habr.com/ru/articles/1011524/

    #Claude_Code_skills #создание_skills #типы_skills #верификация_кода #скаффолдинг #маркетплейс_плагинов #context_engineering #ранбуки #композиция_skills

  30. [Перевод] Skills для Claude Code: огромный гайд от инженера Anthropic

    Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять. Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими? Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

    habr.com/ru/articles/1011524/

    #Claude_Code_skills #создание_skills #типы_skills #верификация_кода #скаффолдинг #маркетплейс_плагинов #context_engineering #ранбуки #композиция_skills

  31. [Перевод] Skills для Claude Code: огромный гайд от инженера Anthropic

    Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять. Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими? Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

    habr.com/ru/articles/1011524/

    #Claude_Code_skills #создание_skills #типы_skills #верификация_кода #скаффолдинг #маркетплейс_плагинов #context_engineering #ранбуки #композиция_skills

  32. [Перевод] Skills для Claude Code: огромный гайд от инженера Anthropic

    Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять. Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими? Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

    habr.com/ru/articles/1011524/

    #Claude_Code_skills #создание_skills #типы_skills #верификация_кода #скаффолдинг #маркетплейс_плагинов #context_engineering #ранбуки #композиция_skills

  33. [Перевод] 8 уровней агентной инженерии

    Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет. Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

    habr.com/ru/articles/1010430/

    #Агентная_инженерия #LLM #context_engineering #background_agents #MCP #feedback_loops #compounding_engineering #code_review #оркестрация #автономность

  34. [Перевод] 8 уровней агентной инженерии

    Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет. Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

    habr.com/ru/articles/1010430/

    #Агентная_инженерия #LLM #context_engineering #background_agents #MCP #feedback_loops #compounding_engineering #code_review #оркестрация #автономность

  35. [Перевод] 8 уровней агентной инженерии

    Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет. Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

    habr.com/ru/articles/1010430/

    #Агентная_инженерия #LLM #context_engineering #background_agents #MCP #feedback_loops #compounding_engineering #code_review #оркестрация #автономность

  36. [Перевод] 8 уровней агентной инженерии

    Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет. Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

    habr.com/ru/articles/1010430/

    #Агентная_инженерия #LLM #context_engineering #background_agents #MCP #feedback_loops #compounding_engineering #code_review #оркестрация #автономность

  37. Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

    Я написал CLAUDE.md на 200 строк. Исследование ETH Zurich на 138 репозиториях говорит: мой агент стал от этого тупее на 3%, а я плачу на 20% больше за токены. Разбираюсь, что пошло не так.

    habr.com/ru/articles/1010160/

    #CLAUDEmd #AGENTSmd #контекст #AIагенты #coding_agents #ETH_Zurich #context_engineering

  38. Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

    Я написал CLAUDE.md на 200 строк. Исследование ETH Zurich на 138 репозиториях говорит: мой агент стал от этого тупее на 3%, а я плачу на 20% больше за токены. Разбираюсь, что пошло не так.

    habr.com/ru/articles/1010160/

    #CLAUDEmd #AGENTSmd #контекст #AIагенты #coding_agents #ETH_Zurich #context_engineering

  39. Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

    Я написал CLAUDE.md на 200 строк. Исследование ETH Zurich на 138 репозиториях говорит: мой агент стал от этого тупее на 3%, а я плачу на 20% больше за токены. Разбираюсь, что пошло не так.

    habr.com/ru/articles/1010160/

    #CLAUDEmd #AGENTSmd #контекст #AIагенты #coding_agents #ETH_Zurich #context_engineering

  40. Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

    Я написал CLAUDE.md на 200 строк. Исследование ETH Zurich на 138 репозиториях говорит: мой агент стал от этого тупее на 3%, а я плачу на 20% больше за токены. Разбираюсь, что пошло не так.

    habr.com/ru/articles/1010160/

    #CLAUDEmd #AGENTSmd #контекст #AIагенты #coding_agents #ETH_Zurich #context_engineering

  41. Проблема не в промпте: как Claude Code плывет на длинных задачах и как управлять контекстом

    На коротких задачах coding-агент выглядит почти как живой разработчик: читает код, гоняет тесты, находит проблему, предлагает diff, но на длинной дистанции магия заканчивается. Стоит агенту или пользователю подмешать еще пару логов, несколько файлов "на всякий случай" или еще один MCP-сервер, и агент начинает забывать договоренности, повторять уже проверенные шаги и терять план. Обычно это объясняют так: "модель тупит" или "надо лучше промптить", но на практике проблема часто в другом: мы складируем состояние задачи в историю чата и надеемся, что модель удержит его сама. Не удержит. Контекст у LLM - это не бездонный мешок, а рабочая часть "памяти" модели, ее нужно проектировать: что хранить отдельно, что подмешивать just-in-time, что выбрасывать после шага и что обязательно возвращать после compaction. В этой статье я разберу context engineering на примере coding agents, а конкретно на Claude Code: почему long context до сих пор деградирует, почему проблема особенно больно бьет по агентам, чем полезны /compact и Plan Mode, и как собрать минимальный контекстный конвейер без магии и лишней философии.

    habr.com/ru/articles/1004994/

    #ai #claude_code #coding_agents #context_engineering

  42. Проблема не в промпте: как Claude Code плывет на длинных задачах и как управлять контекстом

    На коротких задачах coding-агент выглядит почти как живой разработчик: читает код, гоняет тесты, находит проблему, предлагает diff, но на длинной дистанции магия заканчивается. Стоит агенту или пользователю подмешать еще пару логов, несколько файлов "на всякий случай" или еще один MCP-сервер, и агент начинает забывать договоренности, повторять уже проверенные шаги и терять план. Обычно это объясняют так: "модель тупит" или "надо лучше промптить", но на практике проблема часто в другом: мы складируем состояние задачи в историю чата и надеемся, что модель удержит его сама. Не удержит. Контекст у LLM - это не бездонный мешок, а рабочая часть "памяти" модели, ее нужно проектировать: что хранить отдельно, что подмешивать just-in-time, что выбрасывать после шага и что обязательно возвращать после compaction. В этой статье я разберу context engineering на примере coding agents, а конкретно на Claude Code: почему long context до сих пор деградирует, почему проблема особенно больно бьет по агентам, чем полезны /compact и Plan Mode, и как собрать минимальный контекстный конвейер без магии и лишней философии.

    habr.com/ru/articles/1004994/

    #ai #claude_code #coding_agents #context_engineering

  43. Проблема не в промпте: как Claude Code плывет на длинных задачах и как управлять контекстом

    На коротких задачах coding-агент выглядит почти как живой разработчик: читает код, гоняет тесты, находит проблему, предлагает diff, но на длинной дистанции магия заканчивается. Стоит агенту или пользователю подмешать еще пару логов, несколько файлов "на всякий случай" или еще один MCP-сервер, и агент начинает забывать договоренности, повторять уже проверенные шаги и терять план. Обычно это объясняют так: "модель тупит" или "надо лучше промптить", но на практике проблема часто в другом: мы складируем состояние задачи в историю чата и надеемся, что модель удержит его сама. Не удержит. Контекст у LLM - это не бездонный мешок, а рабочая часть "памяти" модели, ее нужно проектировать: что хранить отдельно, что подмешивать just-in-time, что выбрасывать после шага и что обязательно возвращать после compaction. В этой статье я разберу context engineering на примере coding agents, а конкретно на Claude Code: почему long context до сих пор деградирует, почему проблема особенно больно бьет по агентам, чем полезны /compact и Plan Mode, и как собрать минимальный контекстный конвейер без магии и лишней философии.

    habr.com/ru/articles/1004994/

    #ai #claude_code #coding_agents #context_engineering

  44. Проблема не в промпте: как Claude Code плывет на длинных задачах и как управлять контекстом

    На коротких задачах coding-агент выглядит почти как живой разработчик: читает код, гоняет тесты, находит проблему, предлагает diff, но на длинной дистанции магия заканчивается. Стоит агенту или пользователю подмешать еще пару логов, несколько файлов "на всякий случай" или еще один MCP-сервер, и агент начинает забывать договоренности, повторять уже проверенные шаги и терять план. Обычно это объясняют так: "модель тупит" или "надо лучше промптить", но на практике проблема часто в другом: мы складируем состояние задачи в историю чата и надеемся, что модель удержит его сама. Не удержит. Контекст у LLM - это не бездонный мешок, а рабочая часть "памяти" модели, ее нужно проектировать: что хранить отдельно, что подмешивать just-in-time, что выбрасывать после шага и что обязательно возвращать после compaction. В этой статье я разберу context engineering на примере coding agents, а конкретно на Claude Code: почему long context до сих пор деградирует, почему проблема особенно больно бьет по агентам, чем полезны /compact и Plan Mode, и как собрать минимальный контекстный конвейер без магии и лишней философии.

    habr.com/ru/articles/1004994/

    #ai #claude_code #coding_agents #context_engineering