home.social

#ai_agents — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ai_agents, aggregated by home.social.

  1. ROI от внедрения ИИ: как считать и чего ожидать реально

    Меня зовут Мария Филатова, я эксперт в области ИИ для бизнеса, предприниматель, сооснователь платформы внедрения AI-процессов в бизнес и автор медиа « вАЙТИ ». В статье рассказала о том, чем внедрение ИИ отличается в теории и на практике, а также что стоит считать реальной выгодой от этого. На примерах показала, как оценивать ROI и чего ожидать реально.

    habr.com/ru/companies/beeline_

    #искусственный_интеллект #ai #roi #автоматизация_бизнеса #ai_automation #llm #ai_agents #цифровизация #бизнеспроцессы #внедрение_ии

  2. ROI от внедрения ИИ: как считать и чего ожидать реально

    Меня зовут Мария Филатова, я эксперт в области ИИ для бизнеса, предприниматель, сооснователь платформы внедрения AI-процессов в бизнес и автор медиа « вАЙТИ ». В статье рассказала о том, чем внедрение ИИ отличается в теории и на практике, а также что стоит считать реальной выгодой от этого. На примерах показала, как оценивать ROI и чего ожидать реально.

    habr.com/ru/companies/beeline_

    #искусственный_интеллект #ai #roi #автоматизация_бизнеса #ai_automation #llm #ai_agents #цифровизация #бизнеспроцессы #внедрение_ии

  3. ROI от внедрения ИИ: как считать и чего ожидать реально

    Меня зовут Мария Филатова, я эксперт в области ИИ для бизнеса, предприниматель, сооснователь платформы внедрения AI-процессов в бизнес и автор медиа « вАЙТИ ». В статье рассказала о том, чем внедрение ИИ отличается в теории и на практике, а также что стоит считать реальной выгодой от этого. На примерах показала, как оценивать ROI и чего ожидать реально.

    habr.com/ru/companies/beeline_

    #искусственный_интеллект #ai #roi #автоматизация_бизнеса #ai_automation #llm #ai_agents #цифровизация #бизнеспроцессы #внедрение_ии

  4. ROI от внедрения ИИ: как считать и чего ожидать реально

    Меня зовут Мария Филатова, я эксперт в области ИИ для бизнеса, предприниматель, сооснователь платформы внедрения AI-процессов в бизнес и автор медиа « вАЙТИ ». В статье рассказала о том, чем внедрение ИИ отличается в теории и на практике, а также что стоит считать реальной выгодой от этого. На примерах показала, как оценивать ROI и чего ожидать реально.

    habr.com/ru/companies/beeline_

    #искусственный_интеллект #ai #roi #автоматизация_бизнеса #ai_automation #llm #ai_agents #цифровизация #бизнеспроцессы #внедрение_ии

  5. Вайбкодинг — это гемблинг

    Наблюдая за тем, как ИИ внедряется на работе и дома, я всё чаще ловлю себя на простой мысли: всё труднее писать код самому и всё больше хочется делегировать ИИ. Да ещё и провайдеры ИИ призывают тратить больше токенов, руководители всё чаще призывают команды активнее пользоваться ИИ. В соцсетях регулярно попадаются шуточные видео про то, как CEO предлагает потреблять токены ради самого потребления, а в крупных компаниях уже идёт негласное соревнование: кто больше использует AI‑инструменты, кто больше автоматизирует, кто быстрее покажет, что «мы тоже в игре». Из названия понятно, к чему я веду. Но мне хочется поговорить не про хайп и не про страх перед ИИ, а про более бытовую, инженерную и неприятную сторону: вайбкодинг очень легко превращается в гемблинг.

    habr.com/ru/articles/1033130/

    #ai #vibe_coding #llm #java #openrouter #ai_agents #telegram_bot #ollama #agentic_engineering

  6. Вайбкодинг — это гемблинг

    Наблюдая за тем, как ИИ внедряется на работе и дома, я всё чаще ловлю себя на простой мысли: всё труднее писать код самому и всё больше хочется делегировать ИИ. Да ещё и провайдеры ИИ призывают тратить больше токенов, руководители всё чаще призывают команды активнее пользоваться ИИ. В соцсетях регулярно попадаются шуточные видео про то, как CEO предлагает потреблять токены ради самого потребления, а в крупных компаниях уже идёт негласное соревнование: кто больше использует AI‑инструменты, кто больше автоматизирует, кто быстрее покажет, что «мы тоже в игре». Из названия понятно, к чему я веду. Но мне хочется поговорить не про хайп и не про страх перед ИИ, а про более бытовую, инженерную и неприятную сторону: вайбкодинг очень легко превращается в гемблинг.

    habr.com/ru/articles/1033130/

    #ai #vibe_coding #llm #java #openrouter #ai_agents #telegram_bot #ollama #agentic_engineering

  7. CodeClone 2.0: структурное ревью Python-кода для CI, IDE и AI-агентов

    Когда я начинал CodeClone, это был довольно понятный инструмент: найти структурные клоны в Python-коде и не дать им незаметно расползаться по проекту. Сейчас вышел CodeClone 2.0.0, и это уже другой продукт. Не “ещё один линтер”, не попытка заменить Ruff, mypy, pytest, Bandit или Semgrep, а отдельный слой ревью: он смотрит на структуру Python-кода, отделяет старый технический долг от новых регрессий, связывает находки с покрытием тестами и дает одну и ту же картину в CLI, HTML-отчете, GitHub Actions, VS Code, Claude Desktop, Codex и через MCP. Эта статья не про список флагов CLI. Про флаги есть документация. Здесь я хочу рассказать, во что CodeClone вырос как продукт и зачем вообще нужен такой класс инструмента сейчас, когда разработка всё заметнее смещается в сторону AI-агентов.

    habr.com/ru/articles/1031124/

    #python #code_review #code_review_ai #quality_gates #ai_agents #static_analysis #test_coverage

  8. 10 настроек Claude Code, до которых большинство разработчиков не доходит

    Ранее я писал про утечку исходного кода Claude Code . 512 000 строк, KAIROS, упоминания нерелизнутых моделей Opus 4.7 и Sonnet 4.8. Так вот. В актуальном Claude Code уже есть Opus 4.7 . Ровно как и было в leaked-коде. Вместе с ней появился новый уровень /effort xhigh - это мы сегодня тоже разберём. В первой части я показал что Claude Code умеет из коробки. Типовой сценарий после этого: "понял, установил, пользуюсь". И дальше тот же потолок что у всех - Claude работает быстро, но как-то странно. Отвечает не то, повторяет одно и то же к концу сессии, просит разрешения на каждый чих, жрёт токены как не в себя. Это решается настройками. Конкретными. Которые лежат в двух файлах и никто до них не доходит. Ниже десять вещей которые я настроил за полгода работы с Claude Code и которые сделали разницу между "работает" и "работает как отдел". С готовыми конфигами. Копируй, вставляй, меняй под себя.

    habr.com/ru/articles/1028988/

    #claude_code #anthropic #opus_47 #ai_agents #ai_coding #developer_tools #prompt_engineering #hooks #claudemd #vibecoding

  9. Мультимодальные модели – грубый и дорогой инструмент

    Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

    habr.com/ru/articles/1023916/

    #мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

  10. Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

    Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

    habr.com/ru/articles/1020016/

    #llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

  11. Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

    Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

    habr.com/ru/articles/1020016/

    #llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

  12. Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

    Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

    habr.com/ru/articles/1020016/

    #llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

  13. Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

    Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку. Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку. В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

    habr.com/ru/articles/1020016/

    #llm #ai_agents #rag #machine_learning #архитектура #chainofthought #теорема_байеса #gpt54 #qwen35 #бенчмарк

  14. [Перевод] Agentis Memory — Redis-совместимое хранилище со встроенным векторным поиском и локальными эмбеддингами

    В наше время уже никого не удивишь разработкой агентов, очередной оптимизацией, новой моделью или новой инфраструктурой для нейронок. Всё это в порядке вещей. Однако одно дело читать в Twitter «мы написали агента X и он оптимизировал нам процессы на 300000%», и совсем другое — начать копать чуть глубже. Копнёшь — а «агентом» называют скилл с одним промптом. Разработка настоящих агентов — задача не тривиальная. Достаточно посмотреть на утёкшие исходники Claude CLI — это не просто CLI, а целая инфраструктура бизнес-логики вокруг LLM. Я бы сравнил разработку агентов с разработкой типичных бэкенд-компонентов. Аналогия такая: если вы пишете каноничный бэкенд-сервис — вам нужна СУБД. Если Web3-сервис — блокчейн. Но на СУБД или блокчейне происходит в лучшем случае 50% всей логики. Вся магия крутится именно на бэкенде. С агентами то же самое: подключаешь AI SDK, конфигурируешь мыслительное ядро и пишешь вокруг него всю обвязку — мониторинги, AIOps, оркестрацию, memory management. Вот про memory management и пойдёт речь.

    habr.com/ru/articles/1018784/

    #Redis #AI_agents #GraalVM #ONNX #embeddings #HNSW #Java_Vector_API #SIMD #Project_Loom #LLM

  15. От Vibe Coding к Agentic Engineering: что изменилось в ИИ-разработке за 1 год

    Сначала нам обещали, что можно просто разговаривать с ИИ , а он будет писать код. Теперь выясняется, что этого мало: уже выигрывают не те, кто лучше промптит, а те, кто умеет проектировать систему, задавать рамки агентам и ловить их ошибки раньше, чем они попадут в рабочую версию сервиса, которой пользуются реальные люди. Я разобрала, что произошло за последние месяцы, почему кодинг, что называется, "по вайбу" оказался опасной иллюзией, и что теперь делать разработчикам, чтобы не остаться за бортом.

    habr.com/ru/articles/1006096/

    #искусственный_интеллект #нейросети #vibe_coding #agentic_engineering #разработка #автоматизация #карьера #андрей_карпатый #ии_агенты #ai_agents

  16. GitHub Copilot Custom Agents: от универсального чата к специализированным ролям (на примере VS Code)

    Многие уже используют GitHub Copilot Chat каждый день: @workspace , режимы вроде ask/edit/agent и быстрые правки кода стали частью рутины. Проблема в том, что стандартный агент в чате — универсальный, а значит часто даёт усреднённые ответы. На практике стандартного чата часто становится недостаточно. Без заранее заданных правил агент не учитывает специфику проекта и принимает решения «по умолчанию». Такие ответы могут быть корректными технически, но часто не соответствуют вашим внутренним конвенциям и архитектурным ограничениям. В итоге это приводит к постоянному ручному управлению контекстом. Документацию и эталонные файлы приходится каждый раз явно добавлять в запрос, а роль, стек и стиль — задавать заново для каждой новой задачи. С выходом версии VS Code 1.106 появилась возможность автоматизировать этот процесс через Custom Agents . В этой статье мы пошагово разберем два способа настройки таких агентов — через интерфейс VS Code и вручную через файлы конфигурации, детально пройдемся по доступным параметрам и соберем пример готового агента. Настроить своего Агента

    habr.com/ru/articles/993252/

    #copilot #vscode #ai #agentsmd #ииагенты #ai_agents #tutorial

  17. ИИ агент на n8n: создаём Telegram бота с доступом к своим данным без иностранной карты за 30 минут

    В свободное время я часто "грешу" тем, что пилю очередной "стартап на коленке". Каждый раз когда мне приходила идея по типу "а не создать ли мне прикольного бота, который будет изменять прическу или одежду по фото , я шел по самому долгому пути - лез в код, и порой, это отнимало недели. Как итог - разработка прототипа затягивались. Идеи опережали возможности, а мысль о том, что надо снова пилить фичу, тестировать ее, и паралельно еще править кучу багов (при этом без какой-либо гарантии, что продукт когда-либо принесет деньги), отбивало желание возвращаться к нему вовсе. В этой статье я бы хотел поделиться с вами преимуществами no-code, которые я для себя открыл, а в качестве примера продемонстрировать, как можно легко и быстро, буквально за один вечер собрать телеграм бота с ИИ под капотом. Да еще и с возможностью подключения к собственным данным Поехали! 🚀

    habr.com/ru/companies/datafeel

    #n8n #n8n_ai #n8n_ai_agent #n8n_telegram #ai_agent #ai_agents #ai_agent_tutorial #автоматизация #автоматизация_рутины #автоматизация_бизнеспроцессов

  18. ИИ-агенты выходят из лаборатории: бизнес учится доверять нейросетям. Пересказ исследования G2

    Исследование G2 «A Leap of Trust: AI Agents Are Winning Hearts and Wallets» показывает: 2025 год стал моментом, когда ИИ-агенты перестали быть лабораторным экспериментом и вошли в операционную реальность. Три из четырёх компаний уже инвестировали в автономные системы , а более половины готовятся увеличить бюджеты. Мы выделили главное из отчёта — как меняется мотивация бизнеса, где агенты приносят измеримый эффект и почему доверие становится новой валютой цифровой эпохи.

    habr.com/ru/companies/technokr

    #report #g2 #ai #llm #ai_agents #insights #ии #ии_агенты #нейросети

  19. Как создать свой Perplexity: Архитектура AI для глубокого исследования на Next.js и OpenAI

    Многие программисты в ближайшие годы потеряют работу из-за ИИ. Ваша задача — самому стать тем, кто строит Perplexity, а не тем, кто только ими пользуется. К концу статьи у вас будет четкое понимание того, как построить self-hosted SaaS для глубокого исследования, который можно встроить в любой продукт. Переходите, копируйте репозиторий , поднимайте и вы сможете в полном мере насладиться экспериментами и изучить логи.

    habr.com/ru/articles/923948/

    #agi #aifa #nextjs #next #vercel #openai #ai #artificial_intelligence #ai_agents #deep_research

  20. [Перевод] Хочешь умного агента? Научись оценивать его правильно

    В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением. Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности. Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.

    habr.com/ru/articles/902608/

    #ai_agent #ai_agents #ai_агенты #ии_агент #ai #ии #llm #eval