#инференс_ллм — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-19 · 18:52 UTC

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

У меня возникла идея проверить насколько различается скорость инференса LLM моделей не только в сравнении CPU и GPU, но и между младшими моделями со старшими при обработке без использования GPU. Для сравнения я выбрал модель gpt-oss:20b (размер модели 14Гб) и gpt-oss:120b (размер модели 65Гб). Запустил тест моделей я на компьютере с процессором Intel Core I9 14900K и 192Гб оперативной памяти.

https://habr.com/ru/articles/1001616/

#нейросети #искусственный_интеллект #тестирование #llm #ollama #видеокарты #инференс_ллм #инференс_моделей #инференс_нейросетей

#инференс_нейросетей #инференс_моделей #инференс_ллм #видеокарты #ollama #llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#сервер_для_llm #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код

Habr @[email protected] · 2025-11-10 · 04:12 UTC

Домашний супер-компьютер для ИИ: какой выбрать в 2025?

Вполне возможно, что в этом году происходит зарождение нового тренда. Он заключается в переносе вычислительных мощностей ближе к пользователю - прямо домой, на его личную вычислительную станцию. Похоже, что большие языковые моделей (LLM) и генеративный ИИ перестают быть прерогативой дата-центров. В этой статье приведен обзор решений, которые можно применить в качестве домашних вычислительных станций ИИ сегодня.

https://habr.com/ru/articles/964332/

#локальный_ai #инференс_ллм #llm #локальный_запуск_нейросетей #Nvidia_DGX_Spark #mac_studio #Strix_Halo #RYZEN_AI_MAX+_395 #ии #ai

#ai #ии #ryzen_ai_max #strix_halo #mac_studio #nvidia_dgx_spark

Habr @[email protected] · 2025-11-10 · 04:12 UTC

Домашний супер-компьютер для ИИ: какой выбрать в 2025?

Вполне возможно, что в этом году происходит зарождение нового тренда. Он заключается в переносе вычислительных мощностей ближе к пользователю - прямо домой, на его личную вычислительную станцию. Похоже, что большие языковые моделей (LLM) и генеративный ИИ перестают быть прерогативой дата-центров. В этой статье приведен обзор решений, которые можно применить в качестве домашних вычислительных станций ИИ сегодня.

https://habr.com/ru/articles/964332/

#локальный_ai #инференс_ллм #llm #локальный_запуск_нейросетей #Nvidia_DGX_Spark #mac_studio #Strix_Halo #RYZEN_AI_MAX+_395 #ии #ai

#ai #ии #ryzen_ai_max #strix_halo #mac_studio #nvidia_dgx_spark

Habr @[email protected] · 2025-11-10 · 04:12 UTC

Домашний супер-компьютер для ИИ: какой выбрать в 2025?

Вполне возможно, что в этом году происходит зарождение нового тренда. Он заключается в переносе вычислительных мощностей ближе к пользователю - прямо домой, на его личную вычислительную станцию. Похоже, что большие языковые моделей (LLM) и генеративный ИИ перестают быть прерогативой дата-центров. В этой статье приведен обзор решений, которые можно применить в качестве домашних вычислительных станций ИИ сегодня.

https://habr.com/ru/articles/964332/

#локальный_ai #инференс_ллм #llm #локальный_запуск_нейросетей #Nvidia_DGX_Spark #mac_studio #Strix_Halo #RYZEN_AI_MAX+_395 #ии #ai

#ai #ии #ryzen_ai_max #strix_halo #mac_studio #nvidia_dgx_spark

Habr @[email protected] · 2025-11-10 · 04:12 UTC

Домашний супер-компьютер для ИИ: какой выбрать в 2025?

Вполне возможно, что в этом году происходит зарождение нового тренда. Он заключается в переносе вычислительных мощностей ближе к пользователю - прямо домой, на его личную вычислительную станцию. Похоже, что большие языковые моделей (LLM) и генеративный ИИ перестают быть прерогативой дата-центров. В этой статье приведен обзор решений, которые можно применить в качестве домашних вычислительных станций ИИ сегодня.

https://habr.com/ru/articles/964332/

#локальный_ai #инференс_ллм #llm #локальный_запуск_нейросетей #Nvidia_DGX_Spark #mac_studio #Strix_Halo #RYZEN_AI_MAX+_395 #ии #ai

#локальный_ai #инференс_ллм #llm #локальный_запуск_нейросетей #nvidia_dgx_spark #mac_studio

Habr @[email protected] · 2025-10-18 · 20:02 UTC

[Перевод] Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору: От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой. В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

https://habr.com/ru/articles/957748/

#vllm #llm #инференс_ллм #llm_inference

#llm_inference #инференс_ллм #llm #vllm