#gemma4 — Public Fediverse posts on home.social

Tim @[email protected] · 2026-05-14 · 15:30 UTC

Vor 2½ Monaten habe ich 1000 Token bei #metaGer gekauft und davon sind aktuell noch 822 Token übrig.

In etwa 90 Tagen habe ich 178 Token verbraucht, was im Schnitt etwa zwei Anfragen täglich entspricht.

Kommt mir wenig vor. Mir liegen natürlich keine Zahlen vor, aber früher wären es wohl deutlich mehr Suchanfragen gewesen.

Heute beantwortet ein lokal inferiertes #Gemma4 viele meiner Fragen. Klassische Suchmaschinen verwende ich immer seltener für meine Recherchen.

Geht euch das auch so?

#metager #gemma4

Habr @[email protected] · 2026-05-11 · 14:32 UTC

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

https://habr.com/ru/articles/1033808/

#llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

#opencode #qwen #qwen36 #gemma4 #llamacpp #llmмодели

Habr @[email protected] · 2026-05-11 · 14:32 UTC

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

https://habr.com/ru/articles/1033808/

#llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

#opencode #qwen #qwen36 #gemma4 #llamacpp #llmмодели

Habr @[email protected] · 2026-05-11 · 14:32 UTC

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

https://habr.com/ru/articles/1033808/

#llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

#opencode #qwen #qwen36 #gemma4 #llamacpp #llmмодели

Habr @[email protected] · 2026-05-11 · 14:32 UTC

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

https://habr.com/ru/articles/1033808/

#llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

#llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen

Thomas @[email protected] · 2026-05-11 · 09:15 UTC

New week, small update: Run LLMs Locally

Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

#ai #llm #llamacpp #stablediffusion #qwen3 #glm

Arint - SEO+KI @[email protected] · 2026-05-07 · 04:01 UTC

RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

mehr auf Arint.info

#AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

https://x.com/mr_r0b0t/status/2052022017470120067#m

#ai #gemma4 #llm #mtp #qwen3 #arint_info

GOMOOT :mastodon: @[email protected] · 2026-05-06 · 12:28 UTC

🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/

#AIInference #gemma4 #GoogleAI #LLM #MultiTokenPrediction

#aiinference #gemma4 #googleai #llm #multitokenprediction

GOMOOT :mastodon: @[email protected] · 2026-05-06 · 12:28 UTC

🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/

#AIInference #gemma4 #GoogleAI #LLM #MultiTokenPrediction

#aiinference #gemma4 #googleai #llm #multitokenprediction

GOMOOT :mastodon: @[email protected] · 2026-05-06 · 12:28 UTC

🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/

#AIInference #gemma4 #GoogleAI #LLM #MultiTokenPrediction

#aiinference #gemma4 #googleai #llm #multitokenprediction

GOMOOT :mastodon: @[email protected] · 2026-05-06 · 12:28 UTC

🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/

#AIInference #gemma4 #GoogleAI #LLM #MultiTokenPrediction

#multitokenprediction #llm #googleai #gemma4 #aiinference

GOMOOT :mastodon: @[email protected] · 2026-05-06 · 12:28 UTC

🔥 Gemma 4 riduce la latenza fino a 3x con i drafter Multi-Token: decodifica speculativa senza perdita di qualità
https://gomoot.com/gemma-4-accelera-linferenza-grazie-ai-drafter-multi-token/

#AIInference #gemma4 #GoogleAI #LLM #MultiTokenPrediction

#aiinference #gemma4 #googleai #llm #multitokenprediction

N-gated Hacker News @[email protected] · 2026-05-05 · 16:41 UTC

Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

#jargon #techbuzzwords #aiinnovation #overload #gemma4 #aihype

N-gated Hacker News @[email protected] · 2026-05-05 · 16:41 UTC

Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

#jargon #techbuzzwords #aiinnovation #overload #gemma4 #aihype

N-gated Hacker News @[email protected] · 2026-05-05 · 16:41 UTC

Oh joy, another tech article full of #jargon and buzzwords 🤯! "Gemma 4" sounds like the latest Marvel superhero, but it's just another AI model pretending to be useful. Go on, sprinkle more "innovation" and "faster inference" nonsense—we're all holding our breath 🙄.
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/ #techbuzzwords #AIinnovation #overload #Gemma4 #AIhype #HackerNews #ngated

#jargon #techbuzzwords #aiinnovation #overload #gemma4 #aihype

Thomas @[email protected] · 2026-05-05 · 00:02 UTC

New week, more slides: Run LLMs Locally

Now with LFM 2 and new slides for using Transformers.js with WebGPU for Privacy Filter, Function Calling and Embeddings, running completely in your browser.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4 #nemotron #webgpu

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3

Thomas @[email protected] · 2026-04-29 · 05:05 UTC

New week, new slides: Run LLMs Locally

Now including Nemotron 3 Nano Omni from Nvidia, Llama.cpp built-in tools and new slides about using Transformers.js with WebGPU for Image Recognition and OCR.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4 #nemotron #webgpu

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3