#стоимость_инференса — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #стоимость_инференса, aggregated by home.social.
-
[Перевод] Как мы перешли на Opus и стали платить меньше
На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...
https://habr.com/ru/articles/1030850/
#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса
-
[Перевод] Как мы перешли на Opus и стали платить меньше
На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...
https://habr.com/ru/articles/1030850/
#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса
-
[Перевод] Как мы перешли на Opus и стали платить меньше
На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...
https://habr.com/ru/articles/1030850/
#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса
-
[Перевод] Как мы перешли на Opus и стали платить меньше
На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...
https://habr.com/ru/articles/1030850/
#LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса
-
[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.
https://habr.com/ru/articles/1028032/
#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса
-
[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.
https://habr.com/ru/articles/1028032/
#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса
-
[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.
https://habr.com/ru/articles/1028032/
#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса
-
[Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?
DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.
https://habr.com/ru/articles/1028032/
#DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса