home.social

#lm_studio — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #lm_studio, aggregated by home.social.

  1. Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

    Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp. Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

    habr.com/ru/articles/1026482/

    #llm #локальные_модели #qwen #moe #lm_studio #opencode #llamacpp #искусственный_интеллект #rtx_4070 #aiассистент

  2. [Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

    Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

    habr.com/ru/companies/bothub/a

    #gemma_4 #google #lm_studio #claude_code

  3. [Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

    Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

    habr.com/ru/companies/bothub/a

    #gemma_4 #google #lm_studio #claude_code

  4. [Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

    Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

    habr.com/ru/companies/bothub/a

    #gemma_4 #google #lm_studio #claude_code

  5. [Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

    Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

    habr.com/ru/companies/bothub/a

    #gemma_4 #google #lm_studio #claude_code

  6. Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

    Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты Nvidia, чтобы понять, можно ли заставить их эффективно работать. В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.

    habr.com/ru/articles/948396/

    #llm #nvidia #cmp #50hx #90hx #lm_studio #майнинг #cuda #cublas #40hx

  7. Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX

    Теоретическая производительность майнинговых карт весьма высока, но синтетические тесты показывают, что они в 10 раз слабее игровых - где же правда? На практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов. Так что же они могут?

    habr.com/ru/articles/940226/

    #ollama #llm #fp16 #nvidia #cmp #50HX #90HX #майнинг #искусственный_интеллект #lm_studio