home.social

#стоимость_инференса — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #стоимость_инференса, aggregated by home.social.

  1. [Перевод] Как мы перешли на Opus и стали платить меньше

    На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

    habr.com/ru/articles/1030850/

    #LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

  2. [Перевод] Как мы перешли на Opus и стали платить меньше

    На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

    habr.com/ru/articles/1030850/

    #LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

  3. [Перевод] Как мы перешли на Opus и стали платить меньше

    На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

    habr.com/ru/articles/1030850/

    #LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

  4. [Перевод] Как мы перешли на Opus и стали платить меньше

    На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM . Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится. Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0. Причина в основном в том, чего Opus не делает : 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога. Архитектура выглядит так...

    habr.com/ru/articles/1030850/

    #LLMагенты #multiagent #Claude_Opus #Claude_Haiku #оркестратор #triager #ClickHouse #семантический_поиск #стоимость_инференса

  5. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  6. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  7. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  8. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса