#стоимость_инференса — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-04 · 08:42 UTC

[Перевод] Как мы перешли на Opus и стали платить меньше

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

https://habr.com/ru/articles/1030850/

#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

#стоимость_инференса #семантический_поиск #clickhouse #triager #оркестратор #claude_haiku

Habr @[email protected] · 2026-05-04 · 08:42 UTC

[Перевод] Как мы перешли на Opus и стали платить меньше

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

https://habr.com/ru/articles/1030850/

#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

#стоимость_инференса #семантический_поиск #clickhouse #triager #оркестратор #claude_haiku

Habr @[email protected] · 2026-05-04 · 08:42 UTC

[Перевод] Как мы перешли на Opus и стали платить меньше

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

https://habr.com/ru/articles/1030850/

#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

#стоимость_инференса #семантический_поиск #clickhouse #triager #оркестратор #claude_haiku

Habr @[email protected] · 2026-05-04 · 08:42 UTC

[Перевод] Как мы перешли на Opus и стали платить меньше

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

https://habr.com/ru/articles/1030850/

#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

#llmагенты #multiagent #claude_opus #claude_haiku #оркестратор #triager

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#стоимость_инференса #openai_anthropic_конкуренция #ai_безопасность #дистилляция_моделей #экспортный_контроль_ai #swebench

Habr @[email protected] · 2026-04-26 · 08:42 UTC

[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

https://habr.com/ru/articles/1028032/

#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

#deepseek_v4 #mixture_of_experts #open_source_llm #frontier_модели #swebench #экспортный_контроль_ai