home.social

#open_source_llm — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #open_source_llm, aggregated by home.social.

  1. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  2. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  3. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  4. [Перевод] Вышел DeepSeek V4. Почему это очень плохо для США?

    DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного. Вот в чём дело. Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна. Здесь и начинается проблема.

    habr.com/ru/articles/1028032/

    #DeepSeek_V4 #mixture_of_experts #open_source_LLM #frontier_модели #SWEbench #экспортный_контроль_AI #дистилляция_моделей #AI_безопасность #OpenAI_Anthropic_конкуренция #стоимость_инференса

  5. GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

    В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

    habr.com/ru/companies/veai/art

    #агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи

  6. GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

    В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

    habr.com/ru/companies/veai/art

    #агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи

  7. GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

    В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

    habr.com/ru/companies/veai/art

    #агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи

  8. GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

    В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

    habr.com/ru/companies/veai/art

    #агент_для_разработчиков #AIагент #бенчмарк_LLM #GLM_51 #DeepSeek_V32 #сравнение_моделей #кодингагент #Veai #open_source_LLM #LLMсудьи

  9. Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

    В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.

    habr.com/ru/companies/oleg-bun

    #text2sql #large_language_models #open_source_llm #qwen #gpt #аналитика_данных #bird #spider #prompt_engineering #prompt_injection

  10. Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

    В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.

    habr.com/ru/companies/oleg-bun

    #text2sql #large_language_models #open_source_llm #qwen #gpt #аналитика_данных #bird #spider #prompt_engineering #prompt_injection

  11. Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

    В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.

    habr.com/ru/companies/oleg-bun

    #text2sql #large_language_models #open_source_llm #qwen #gpt #аналитика_данных #bird #spider #prompt_engineering #prompt_injection

  12. Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

    В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.

    habr.com/ru/companies/oleg-bun

    #text2sql #large_language_models #open_source_llm #qwen #gpt #аналитика_данных #bird #spider #prompt_engineering #prompt_injection

  13. Почему крупный бизнес бежит от ChatGPT на «железки» за $150

    ChatGPT стоит дорого, требует постоянного интернета и может внезапно отключиться. Альтернативой становятся компактные Edge-устройства, способные работать автономно. Но действительно ли локальное железо может конкурировать с облачными гигантами? Антон Мальцев знает ответ на этот вопрос. ML Lead в ArtSign и основатель RemiBrain, он с 2014 года развертывает решения компьютерного зрения и ИИ на тысячах Edge-устройств — от городских камер до промышленного оборудования. За десять лет накопил уникальный опыт сравнения облачных и локальных решений в реальных проектах.

    habr.com/ru/articles/914854/

    #ai #rockchip #edge_ai #open_source_llm #jetson #jetson_tx1 #chatgpt #иимодель #ии_чатбот #ииинжиниринг

  14. Почему крупный бизнес бежит от ChatGPT на «железки» за $150

    ChatGPT стоит дорого, требует постоянного интернета и может внезапно отключиться. Альтернативой становятся компактные Edge-устройства, способные работать автономно. Но действительно ли локальное железо может конкурировать с облачными гигантами? Антон Мальцев знает ответ на этот вопрос. ML Lead в ArtSign и основатель RemiBrain, он с 2014 года развертывает решения компьютерного зрения и ИИ на тысячах Edge-устройств — от городских камер до промышленного оборудования. За десять лет накопил уникальный опыт сравнения облачных и локальных решений в реальных проектах.

    habr.com/ru/articles/914854/

    #ai #rockchip #edge_ai #open_source_llm #jetson #jetson_tx1 #chatgpt #иимодель #ии_чатбот #ииинжиниринг

  15. Почему крупный бизнес бежит от ChatGPT на «железки» за $150

    ChatGPT стоит дорого, требует постоянного интернета и может внезапно отключиться. Альтернативой становятся компактные Edge-устройства, способные работать автономно. Но действительно ли локальное железо может конкурировать с облачными гигантами? Антон Мальцев знает ответ на этот вопрос. ML Lead в ArtSign и основатель RemiBrain, он с 2014 года развертывает решения компьютерного зрения и ИИ на тысячах Edge-устройств — от городских камер до промышленного оборудования. За десять лет накопил уникальный опыт сравнения облачных и локальных решений в реальных проектах.

    habr.com/ru/articles/914854/

    #ai #rockchip #edge_ai #open_source_llm #jetson #jetson_tx1 #chatgpt #иимодель #ии_чатбот #ииинжиниринг

  16. Почему крупный бизнес бежит от ChatGPT на «железки» за $150

    ChatGPT стоит дорого, требует постоянного интернета и может внезапно отключиться. Альтернативой становятся компактные Edge-устройства, способные работать автономно. Но действительно ли локальное железо может конкурировать с облачными гигантами? Антон Мальцев знает ответ на этот вопрос. ML Lead в ArtSign и основатель RemiBrain, он с 2014 года развертывает решения компьютерного зрения и ИИ на тысячах Edge-устройств — от городских камер до промышленного оборудования. За десять лет накопил уникальный опыт сравнения облачных и локальных решений в реальных проектах.

    habr.com/ru/articles/914854/

    #ai #rockchip #edge_ai #open_source_llm #jetson #jetson_tx1 #chatgpt #иимодель #ии_чатбот #ииинжиниринг