#lm_studio — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #lm_studio, aggregated by home.social.
-
Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака
Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp. Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.
https://habr.com/ru/articles/1026482/
#llm #локальные_модели #qwen #moe #lm_studio #opencode #llamacpp #искусственный_интеллект #rtx_4070 #aiассистент
-
[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!
-
[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!
-
[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!
-
[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!
-
Radeon向けのユーティリティ「AMD Software」にAIツール一括インストール機能が追加/「ComfyUI」や「LM Studio」など5種。インストール可否はオプション
https://forest.watch.impress.co.jp/docs/news/2079926.html#forest_watch_impress #AMD_Software_Adrenalin_Edition #ComfyUI #PyTorch #LM_Studio #Ollama #Amuse #Software_Adrenalin_Edition_AI_Bundle #genai #画像生成 #文章生成 #システム_ファイル #ハードウェア #Windows
-
Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…
Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты Nvidia, чтобы понять, можно ли заставить их эффективно работать. В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.
https://habr.com/ru/articles/948396/
#llm #nvidia #cmp #50hx #90hx #lm_studio #майнинг #cuda #cublas #40hx
-
Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX
Теоретическая производительность майнинговых карт весьма высока, но синтетические тесты показывают, что они в 10 раз слабее игровых - где же правда? На практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов. Так что же они могут?
https://habr.com/ru/articles/940226/
#ollama #llm #fp16 #nvidia #cmp #50HX #90HX #майнинг #искусственный_интеллект #lm_studio