#токены — Public Fediverse posts on home.social

Habr @[email protected] · 2026-07-24 · 22:52 UTC

Как я потратил вечер, разбираясь, почему кэш в клоде, gpt и джемини — это три разных зверя

Устал переплачивать за одну и ту же память, которуе гоняю по кругу, и решил разобраться, как у кого на самом деле устроен кэш, а не просто верить строчке "у нас есть кэширование" и "так дешевле" в доке. Начал с клода, как с самой популярной тулы. Кэш там не работает сам по себе, нужно руками вешать cache_control: ephemeral на кусок промпта (тулы, системный промпт, длинный документ, что угодно стабильное). Ничего не закэшируется, если явно не попросишь. При этом ценой все прозрачно: запись на 5 минут стоит 1.25 от обычной цены, запись на час — уже 2x, а вот чтение из кэша дешевле раз в 10. Если один и тот же кусок дергается хотя бы пару раз за окно, уже в плюсе. Но! Где-то в марте anthropic тихо поменял дефолтный TTL с часа на пять минут, без нормального анонса, просто взяли и поменяли поведение по умолчанию для тех, кто не указал TTL явно. У меня был пайплайн, заточенный под часовое окно, и я не сразу понял, почему счет подрос процентов на 15, пока не полез в changelog. Так что если у вас что-то крутится на клоде на автомате уже давно, стоит перепроверить, какой TTL у вас реально стоит сейчас, а не какой вы когда-то настраивали. С openai все проще, и в хорошем смысле. Там кэш вообще не настраивается руками, он просто есть у любого промпта от 1024 токенов: система сама ищет совпадающий префикс с шагом в 128 токенов, и если находит, режет цену пополам. Ничего в коде трогать не надо. Из минусов, контроля тоже никакого, попал в кэш или нет, узнаешь только постфактум по usage в ответе. И живет это недолго: 5-10 минут простоя, максимум час, потом стирается железно.

https://habr.com/ru/articles/1062850/

#ллм #кэш #клод #чатгпт #гемини #токены

#токены #гемини #чатгпт #клод #кэш #ллм

Habr @[email protected] · 2026-07-17 · 11:32 UTC

Почему следующий этап ИИ-бума будет совсем не про GPU

Первые два года ИИ-бума инвесторы покупали «железо». Теперь рынок начинает искать следующий источник роста. Главной становится не максимальная производительность моделей, а стоимость одного запроса, эффективность вычислений и способность масштабировать ИИ дешевле конкурентов. Именно вокруг этого будет разворачиваться следующая стадия развития отрасли. В июньском обзоре Citrini Research пишет, что рынок ИИ вступает во вторую фазу. Если последние два года инвесторы были готовы платить почти любую цену за вычислительные мощности и крупнейших производителей чипов, то теперь внимание постепенно смещается на стоимость самих вычислений, эффективность моделей и инфраструктуру, которая позволяет снизить расходы. Первая волна ИИ строилась вокруг дефицита GPU и масштабных инвестиций в дата-центры. Однако сейчас главным конкурентным преимуществом становится способность выполнять больше вычислений за меньшие деньги. На рынке растет пониманием, что экспоненциально наращивать мощности дата-центров уже нерентабельно . При этом амортизация от использования падает быстрее отдачи в прибыль. Поэтому они выделяют несколько новых долгосрочных трендов. Во-первых, рынок начинает переходить к локальному (on-device) ИИ . Все больше моделей будут работать непосредственно на смартфонах, ПК и периферийных устройствах без постоянного обращения в облако. Это снижает задержки, повышает конфиденциальность данных и уменьшает стоимость эксплуатации. Во-вторых, усиливается тренд на миниатюризацию моделей . Гонка идет уже не только за максимальным качеством, но и за эффективностью. Компактные модели дешевле в обучении и запуске, быстрее масштабируются и позволяют запускать ИИ там, где раньше это было невозможно.

https://habr.com/ru/articles/1060206/

#gpu #токены #инвестиции #ai #монетизация

#монетизация #ai #инвестиции #токены #gpu

Habr @[email protected] · 2026-07-17 · 11:32 UTC

Почему следующий этап ИИ-бума будет совсем не про GPU

Первые два года ИИ-бума инвесторы покупали «железо». Теперь рынок начинает искать следующий источник роста. Главной становится не максимальная производительность моделей, а стоимость одного запроса, эффективность вычислений и способность масштабировать ИИ дешевле конкурентов. Именно вокруг этого будет разворачиваться следующая стадия развития отрасли. В июньском обзоре Citrini Research пишет, что рынок ИИ вступает во вторую фазу. Если последние два года инвесторы были готовы платить почти любую цену за вычислительные мощности и крупнейших производителей чипов, то теперь внимание постепенно смещается на стоимость самих вычислений, эффективность моделей и инфраструктуру, которая позволяет снизить расходы. Первая волна ИИ строилась вокруг дефицита GPU и масштабных инвестиций в дата-центры. Однако сейчас главным конкурентным преимуществом становится способность выполнять больше вычислений за меньшие деньги. На рынке растет пониманием, что экспоненциально наращивать мощности дата-центров уже нерентабельно . При этом амортизация от использования падает быстрее отдачи в прибыль. Поэтому они выделяют несколько новых долгосрочных трендов. Во-первых, рынок начинает переходить к локальному (on-device) ИИ . Все больше моделей будут работать непосредственно на смартфонах, ПК и периферийных устройствах без постоянного обращения в облако. Это снижает задержки, повышает конфиденциальность данных и уменьшает стоимость эксплуатации. Во-вторых, усиливается тренд на миниатюризацию моделей . Гонка идет уже не только за максимальным качеством, но и за эффективностью. Компактные модели дешевле в обучении и запуске, быстрее масштабируются и позволяют запускать ИИ там, где раньше это было невозможно.

https://habr.com/ru/articles/1060206/

#gpu #токены #инвестиции #ai #монетизация

#монетизация #ai #инвестиции #токены #gpu

Habr @[email protected] · 2026-07-17 · 11:32 UTC

Почему следующий этап ИИ-бума будет совсем не про GPU

Первые два года ИИ-бума инвесторы покупали «железо». Теперь рынок начинает искать следующий источник роста. Главной становится не максимальная производительность моделей, а стоимость одного запроса, эффективность вычислений и способность масштабировать ИИ дешевле конкурентов. Именно вокруг этого будет разворачиваться следующая стадия развития отрасли. В июньском обзоре Citrini Research пишет, что рынок ИИ вступает во вторую фазу. Если последние два года инвесторы были готовы платить почти любую цену за вычислительные мощности и крупнейших производителей чипов, то теперь внимание постепенно смещается на стоимость самих вычислений, эффективность моделей и инфраструктуру, которая позволяет снизить расходы. Первая волна ИИ строилась вокруг дефицита GPU и масштабных инвестиций в дата-центры. Однако сейчас главным конкурентным преимуществом становится способность выполнять больше вычислений за меньшие деньги. На рынке растет пониманием, что экспоненциально наращивать мощности дата-центров уже нерентабельно . При этом амортизация от использования падает быстрее отдачи в прибыль. Поэтому они выделяют несколько новых долгосрочных трендов. Во-первых, рынок начинает переходить к локальному (on-device) ИИ . Все больше моделей будут работать непосредственно на смартфонах, ПК и периферийных устройствах без постоянного обращения в облако. Это снижает задержки, повышает конфиденциальность данных и уменьшает стоимость эксплуатации. Во-вторых, усиливается тренд на миниатюризацию моделей . Гонка идет уже не только за максимальным качеством, но и за эффективностью. Компактные модели дешевле в обучении и запуске, быстрее масштабируются и позволяют запускать ИИ там, где раньше это было невозможно.

https://habr.com/ru/articles/1060206/

#gpu #токены #инвестиции #ai #монетизация

Habr @[email protected] · 2026-07-14 · 09:02 UTC

89% моих трат на AI‑агентов — это кэш, а не генерация. Написал CLI, чтобы увидеть

Я много работаю с кодинг‑агентами в Claude Code. В какой‑то момент поймал себя на том, что не представляю, на что уходят токены . Счёт в конце месяца есть, а из чего он складывается, непонятно. Написал небольшую утилиту: она читает то, что Claude Code и так пишет на диск, и раскладывает расходы по статьям. То, что она показала, мне не понравилось.

https://habr.com/ru/articles/1058938/

#Claude #Claude_Code #LLM #токены #оптимизация_затрат #CLI #TypeScript #open_source #AIагенты #кэширование

#кэширование #aiагенты #open_source #typescript #cli #оптимизация_затрат

Habr @[email protected] · 2026-07-14 · 09:02 UTC

89% моих трат на AI‑агентов — это кэш, а не генерация. Написал CLI, чтобы увидеть

Я много работаю с кодинг‑агентами в Claude Code. В какой‑то момент поймал себя на том, что не представляю, на что уходят токены . Счёт в конце месяца есть, а из чего он складывается, непонятно. Написал небольшую утилиту: она читает то, что Claude Code и так пишет на диск, и раскладывает расходы по статьям. То, что она показала, мне не понравилось.

https://habr.com/ru/articles/1058938/

#Claude #Claude_Code #LLM #токены #оптимизация_затрат #CLI #TypeScript #open_source #AIагенты #кэширование

#кэширование #aiагенты #open_source #typescript #cli #оптимизация_затрат

Habr @[email protected] · 2026-07-14 · 09:02 UTC

89% моих трат на AI‑агентов — это кэш, а не генерация. Написал CLI, чтобы увидеть

Я много работаю с кодинг‑агентами в Claude Code. В какой‑то момент поймал себя на том, что не представляю, на что уходят токены . Счёт в конце месяца есть, а из чего он складывается, непонятно. Написал небольшую утилиту: она читает то, что Claude Code и так пишет на диск, и раскладывает расходы по статьям. То, что она показала, мне не понравилось.

https://habr.com/ru/articles/1058938/

#Claude #Claude_Code #LLM #токены #оптимизация_затрат #CLI #TypeScript #open_source #AIагенты #кэширование

#claude #claude_code #llm #токены #оптимизация_затрат #cli

Habr @[email protected] · 2026-07-07 · 14:02 UTC

Куда делись мои токены?

Когда начинаешь плотно работать с AI-агентом, кажется, что бОльшая часть токенов улетает на сложные процессы - код написать, сайт разобрать, статью подготовить, браузером поуправлять, в логах покопаться. Вроде логично, задача сложная, модель думает, инструменты дергает, контекст растет. А потом смотришь внимательнее и понимаешь, что основная дыра вообще не там. Токены уходят не на полезную работу, а на служебную движуху вокруг нее. Cron-задачи, проверки, диагностика, статусные запросы, огромные списки инструментов “на всякий случай” - все это тихо ест бюджет каждый день. Агент еще ничего толком не сделал, а счетчик уже крутится. Примерно как если бы мастер пришел поменять розетку, но сначала выгрузил из газели весь строительный рынок, два перфоратора и почему-то бетономешалку. Так что в статье решил поделится где именно была утечка, что я подкрутил и как получилось срезать примерно 4,6 млн токенов в день только на фоновых задачах.

https://habr.com/ru/articles/1056636/

#OpenClaw #AIагенты #Токены #Потребление_токенов #Оптимизация_токенов #LLM #SKILLmd #AI_автоматизация #Стоимость_запросов

#стоимость_запросов #ai_автоматизация #skillmd #llm #оптимизация_токенов #потребление_токенов

Habr @[email protected] · 2026-07-07 · 14:02 UTC

Куда делись мои токены?

Когда начинаешь плотно работать с AI-агентом, кажется, что бОльшая часть токенов улетает на сложные процессы - код написать, сайт разобрать, статью подготовить, браузером поуправлять, в логах покопаться. Вроде логично, задача сложная, модель думает, инструменты дергает, контекст растет. А потом смотришь внимательнее и понимаешь, что основная дыра вообще не там. Токены уходят не на полезную работу, а на служебную движуху вокруг нее. Cron-задачи, проверки, диагностика, статусные запросы, огромные списки инструментов “на всякий случай” - все это тихо ест бюджет каждый день. Агент еще ничего толком не сделал, а счетчик уже крутится. Примерно как если бы мастер пришел поменять розетку, но сначала выгрузил из газели весь строительный рынок, два перфоратора и почему-то бетономешалку. Так что в статье решил поделится где именно была утечка, что я подкрутил и как получилось срезать примерно 4,6 млн токенов в день только на фоновых задачах.

https://habr.com/ru/articles/1056636/

#OpenClaw #AIагенты #Токены #Потребление_токенов #Оптимизация_токенов #LLM #SKILLmd #AI_автоматизация #Стоимость_запросов

#стоимость_запросов #ai_автоматизация #skillmd #llm #оптимизация_токенов #потребление_токенов

Habr @[email protected] · 2026-07-07 · 14:02 UTC

Куда делись мои токены?

Когда начинаешь плотно работать с AI-агентом, кажется, что бОльшая часть токенов улетает на сложные процессы - код написать, сайт разобрать, статью подготовить, браузером поуправлять, в логах покопаться. Вроде логично, задача сложная, модель думает, инструменты дергает, контекст растет. А потом смотришь внимательнее и понимаешь, что основная дыра вообще не там. Токены уходят не на полезную работу, а на служебную движуху вокруг нее. Cron-задачи, проверки, диагностика, статусные запросы, огромные списки инструментов “на всякий случай” - все это тихо ест бюджет каждый день. Агент еще ничего толком не сделал, а счетчик уже крутится. Примерно как если бы мастер пришел поменять розетку, но сначала выгрузил из газели весь строительный рынок, два перфоратора и почему-то бетономешалку. Так что в статье решил поделится где именно была утечка, что я подкрутил и как получилось срезать примерно 4,6 млн токенов в день только на фоновых задачах.

https://habr.com/ru/articles/1056636/

#OpenClaw #AIагенты #Токены #Потребление_токенов #Оптимизация_токенов #LLM #SKILLmd #AI_автоматизация #Стоимость_запросов

#openclaw #aiагенты #токены #потребление_токенов #оптимизация_токенов #llm

Habr @[email protected] · 2026-07-04 · 10:42 UTC

Palantir и голые токены: как продать «суверенный ИИ» людям, которые не любят терять контроль

Palantir выложил в X пост , который журналисты быстро стали называть «манифестом». Формально это «The Technological Republic, in brief» — промо-выжимка из книги Алекса Карпа и Николаса Замиски The Technological Republic . Если перевести с языка подрядчика для армии, разведки и крупного бизнеса на обычный русский: не отдавайте свои данные поставщикам больших языковых моделей, не считайте внедрение ИИ по расходу токенов, держите у себя модели, следы работы системы и результаты дообучения. Но важно, кто именно это говорит . Palantir вырос не из кружка любителей открытого ПО - компания продаёт софт для соединения данных, прав доступа, предметных моделей и действий оператора; сама она описывает свой рынок как решения «from the factory floors to the front lines». По годовому отчёту за 2025 год, 54% выручки Palantir пришло от государственных заказчиков, 46% — от коммерческих. Это не декоративный раздел "прочие красивые кейсы", а почти половина бизнеса. Поэтому, когда такая компания заводит речь про «экономию на токенах», речь не о бережливости. Речь о новом слое контроля: где живут данные, кто управляет моделью, кто видит запросы, кто получает следы работы системы и кто потом становится обязательной частью всей этой конструкции. Игра по-крупному

https://habr.com/ru/articles/1055498/

#Palantir #суверенный_ИИ #токены #tokenmaxxing #NVIDIA_Nemotron #Alex_Karp #AIP #военный_ИИ #контроль_данных #alpha

#alpha #контроль_данных #военный_ии #aip #alex_karp #nvidia_nemotron

Habr @[email protected] · 2026-07-04 · 10:42 UTC

Palantir и голые токены: как продать «суверенный ИИ» людям, которые не любят терять контроль

Palantir выложил в X пост , который журналисты быстро стали называть «манифестом». Формально это «The Technological Republic, in brief» — промо-выжимка из книги Алекса Карпа и Николаса Замиски The Technological Republic . Если перевести с языка подрядчика для армии, разведки и крупного бизнеса на обычный русский: не отдавайте свои данные поставщикам больших языковых моделей, не считайте внедрение ИИ по расходу токенов, держите у себя модели, следы работы системы и результаты дообучения. Но важно, кто именно это говорит . Palantir вырос не из кружка любителей открытого ПО - компания продаёт софт для соединения данных, прав доступа, предметных моделей и действий оператора; сама она описывает свой рынок как решения «from the factory floors to the front lines». По годовому отчёту за 2025 год, 54% выручки Palantir пришло от государственных заказчиков, 46% — от коммерческих. Это не декоративный раздел "прочие красивые кейсы", а почти половина бизнеса. Поэтому, когда такая компания заводит речь про «экономию на токенах», речь не о бережливости. Речь о новом слое контроля: где живут данные, кто управляет моделью, кто видит запросы, кто получает следы работы системы и кто потом становится обязательной частью всей этой конструкции. Игра по-крупному

https://habr.com/ru/articles/1055498/

#Palantir #суверенный_ИИ #токены #tokenmaxxing #NVIDIA_Nemotron #Alex_Karp #AIP #военный_ИИ #контроль_данных #alpha

#alpha #контроль_данных #военный_ии #aip #alex_karp #nvidia_nemotron

Habr @[email protected] · 2026-07-04 · 10:42 UTC

Palantir и голые токены: как продать «суверенный ИИ» людям, которые не любят терять контроль

Palantir выложил в X пост , который журналисты быстро стали называть «манифестом». Формально это «The Technological Republic, in brief» — промо-выжимка из книги Алекса Карпа и Николаса Замиски The Technological Republic . Если перевести с языка подрядчика для армии, разведки и крупного бизнеса на обычный русский: не отдавайте свои данные поставщикам больших языковых моделей, не считайте внедрение ИИ по расходу токенов, держите у себя модели, следы работы системы и результаты дообучения. Но важно, кто именно это говорит . Palantir вырос не из кружка любителей открытого ПО - компания продаёт софт для соединения данных, прав доступа, предметных моделей и действий оператора; сама она описывает свой рынок как решения «from the factory floors to the front lines». По годовому отчёту за 2025 год, 54% выручки Palantir пришло от государственных заказчиков, 46% — от коммерческих. Это не декоративный раздел "прочие красивые кейсы", а почти половина бизнеса. Поэтому, когда такая компания заводит речь про «экономию на токенах», речь не о бережливости. Речь о новом слое контроля: где живут данные, кто управляет моделью, кто видит запросы, кто получает следы работы системы и кто потом становится обязательной частью всей этой конструкции. Игра по-крупному

https://habr.com/ru/articles/1055498/

#Palantir #суверенный_ИИ #токены #tokenmaxxing #NVIDIA_Nemotron #Alex_Karp #AIP #военный_ИИ #контроль_данных #alpha

#palantir #суверенный_ии #токены #tokenmaxxing #nvidia_nemotron #alex_karp

Habr @[email protected] · 2026-06-24 · 08:32 UTC