#lm_studio — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-22 · 09:32 UTC

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp. Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

https://habr.com/ru/articles/1026482/

#llm #локальные_модели #qwen #moe #lm_studio #opencode #llamacpp #искусственный_интеллект #rtx_4070 #aiассистент

#aiассистент #rtx_4070 #искусственный_интеллект #llamacpp #opencode #lm_studio

Habr @[email protected] · 2026-04-12 · 17:02 UTC

[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

https://habr.com/ru/companies/bothub/articles/1022574/

#gemma_4 #google #lm_studio #claude_code

#claude_code #lm_studio #google #gemma_4

Habr @[email protected] · 2026-04-12 · 17:02 UTC

[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

https://habr.com/ru/companies/bothub/articles/1022574/

#gemma_4 #google #lm_studio #claude_code

#claude_code #lm_studio #google #gemma_4

Habr @[email protected] · 2026-04-12 · 17:02 UTC

[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

https://habr.com/ru/companies/bothub/articles/1022574/

#gemma_4 #google #lm_studio #claude_code

#claude_code #lm_studio #google #gemma_4

Habr @[email protected] · 2026-04-12 · 17:02 UTC

[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

https://habr.com/ru/companies/bothub/articles/1022574/

#gemma_4 #google #lm_studio #claude_code

:rss: 窓の杜 @[email protected] · 2026-01-22 · 05:18 UTC

Radeon向けのユーティリティ「AMD Software」にAIツール一括インストール機能が追加／「ComfyUI」や「LM Studio」など5種。インストール可否はオプション
https://forest.watch.impress.co.jp/docs/news/2079926.html

#forest_watch_impress #AMD_Software_Adrenalin_Edition #ComfyUI #PyTorch #LM_Studio #Ollama #Amuse #Software_Adrenalin_Edition_AI_Bundle #genai #画像生成 #文章生成 #システム_ファイル #ハードウェア #Windows

#forest_watch_impress #amd_software_adrenalin_edition #comfyui #pytorch #lm_studio #ollama

Habr @[email protected] · 2025-09-18 · 20:42 UTC

Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты Nvidia, чтобы понять, можно ли заставить их эффективно работать. В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.

https://habr.com/ru/articles/948396/

#llm #nvidia #cmp #50hx #90hx #lm_studio #майнинг #cuda #cublas #40hx

#llm #nvidia #cmp #50hx #90hx #lm_studio

Habr @[email protected] · 2025-08-24 · 13:02 UTC

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX

Теоретическая производительность майнинговых карт весьма высока, но синтетические тесты показывают, что они в 10 раз слабее игровых - где же правда? На практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов. Так что же они могут?

https://habr.com/ru/articles/940226/

#ollama #llm #fp16 #nvidia #cmp #50HX #90HX #майнинг #искусственный_интеллект #lm_studio

#lm_studio #искусственный_интеллект #майнинг #90hx #50hx #cmp