home.social

#tool_calling — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #tool_calling, aggregated by home.social.

  1. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  2. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  3. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  4. Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

    Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

    habr.com/ru/articles/1039292/

    #aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

  5. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  6. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  7. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  8. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  9. Один скилл, четыре модели — что может пойти не так

    На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

    habr.com/ru/articles/1020786/

    #AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

  10. Один скилл, четыре модели — что может пойти не так

    На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

    habr.com/ru/articles/1020786/

    #AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

  11. Один скилл, четыре модели — что может пойти не так

    На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

    habr.com/ru/articles/1020786/

    #AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

  12. Один скилл, четыре модели — что может пойти не так

    На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает. Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному. Представьте: вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать. Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз. Вот что получилось. Забегая вперёд: скиллы работают. Но не так, как обещают. И самый интересный результат оказался не там, где я ожидал. Смотреть результаты

    habr.com/ru/articles/1020786/

    #AI_skills #LLM #tool_calling #кроссмодельное_тестирование #Claude #GPT #DeepSeek #Gemini #бенчмарк #AIагенты

  13. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  14. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  15. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  16. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  17. Как я сделал новостной агрегатор с MCP‑сервером, AI‑чатом и Telegram‑ботом

    28 февраля 2026 года я стоял у окна на 41-м этаже в JBR в Дубае и смотрел, как системы ПВО ОАЭ перехватывают иранские беспилотники прямо над моей головой. Полез в новости — в Google и Яндексе статья двухчасовой давности, Telegram-каналы противоречат друг другу. Когда это происходит где-то далеко, не придаёшь этому значения. Когда ты в центре событий, то хочешь знать оперативную информацию, желательно с push-уведомлениями.

    habr.com/ru/articles/1010502/

    #llm #mcp #flask #telegrambot #rss #deepseek #news_aggregator #tool_calling #python

  18. Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

    Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу? Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог . Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может «прочитать» фотографию свежего анализа. Я решил собрать полноценный автономный агент с возможностью вызова внешних инструментов ( Tool‑Calling ) и локальной базой знаний ( RAG ), но без использования громоздких фреймворков вроде LangChain или LlamaIndex.

    habr.com/ru/articles/961280/

    #ai #rag #tool_calling #python #telegrambot #gpt4o_mini #chromadb #ocrтехнологии #медицина #llm

  19. Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

    Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу? Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог . Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может «прочитать» фотографию свежего анализа. Я решил собрать полноценный автономный агент с возможностью вызова внешних инструментов ( Tool‑Calling ) и локальной базой знаний ( RAG ), но без использования громоздких фреймворков вроде LangChain или LlamaIndex.

    habr.com/ru/articles/961280/

    #ai #rag #tool_calling #python #telegrambot #gpt4o_mini #chromadb #ocrтехнологии #медицина #llm

  20. Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

    Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу? Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог . Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может «прочитать» фотографию свежего анализа. Я решил собрать полноценный автономный агент с возможностью вызова внешних инструментов ( Tool‑Calling ) и локальной базой знаний ( RAG ), но без использования громоздких фреймворков вроде LangChain или LlamaIndex.

    habr.com/ru/articles/961280/

    #ai #rag #tool_calling #python #telegrambot #gpt4o_mini #chromadb #ocrтехнологии #медицина #llm

  21. Как я собрал AI-ассистента для отца с больным сердцем: Tool-Calling RAG Pipeline на GPT-4o-mini без LangChain

    Мой отец — человек, переживший несколько сложнейших операций на сердце. Жизнь с хроническим заболеванием — это бесконечный поток анализов, заключений и схем приёма лекарств. Находясь далеко (я живу во Вьетнаме), я постоянно волновался: не забудет ли он про дозу, правильно ли понял назначение, задал ли все нужные вопросы врачу? Мне нужен был не просто бот-напоминалка, а второй пилот — умный, конфиденциальный и мультимодальный AI-Кардиолог . Ассистент, который знает его анамнез наизусть, понимает голосовые команды и может «прочитать» фотографию свежего анализа. Я решил собрать полноценный автономный агент с возможностью вызова внешних инструментов ( Tool‑Calling ) и локальной базой знаний ( RAG ), но без использования громоздких фреймворков вроде LangChain или LlamaIndex.

    habr.com/ru/articles/961280/

    #ai #rag #tool_calling #python #telegrambot #gpt4o_mini #chromadb #ocrтехнологии #медицина #llm