home.social

#gemma4 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gemma4, aggregated by home.social.

  1. RT @AiBattle_: Das Gemma 4 124B MoE-Modell wird schon seit einiger Zeit gerüchteweise erwartet und wurde sogar von Jeff Dean erwähnt. Ich hoffe, dass es nicht mehr lange dauert, bis es endlich veröffentlicht wird. Nathan Lambert (@natolambert): Befreit das 100B Gemma 4 MoE! Gemini Flash 3.5 ist da, also könnt ihr es jetzt veröffentlichen! — nitter.net/natolambert/status/

    mehr auf Arint.info

    #AI #Gemini #Gemma4 #MachineLearning #MoE #arint_info

    https://x.com/AiBattle_/status/2059629633939579004#m

  2. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  3. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  4. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  5. Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

    Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда база выиграла. Это статья про отрицательный результат. Я считаю, он полезнее победы — потому что воспроизводимый и объясняет, какой инструмент под какую задачу. Дальше — цифры, стек и три разбора «почему не взлетело».

    habr.com/ru/articles/1040322/

    #llm #gemma4 #dora #lora #sft #llmjudge

  6. New week, more slides: Run LLMs Locally

    Now including wllama to run GGUF models inside your browser!

    wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
    It has no 4 GB limitation and is faster than Transformers.js.

    I also added translations using the HY-MT model from Tencent.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

  7. New week, more slides: Run LLMs Locally

    Now including wllama to run GGUF models inside your browser!

    wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
    It has no 4 GB limitation and is faster than Transformers.js.

    I also added translations using the HY-MT model from Tencent.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

  8. New week, more slides: Run LLMs Locally

    Now including wllama to run GGUF models inside your browser!

    wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
    It has no 4 GB limitation and is faster than Transformers.js.

    I also added translations using the HY-MT model from Tencent.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

  9. New week, more slides: Run LLMs Locally

    Now including wllama to run GGUF models inside your browser!

    wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
    It has no 4 GB limitation and is faster than Transformers.js.

    I also added translations using the HY-MT model from Tencent.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

  10. New week, more slides: Run LLMs Locally

    Now including wllama to run GGUF models inside your browser!

    wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
    It has no 4 GB limitation and is faster than Transformers.js.

    I also added translations using the HY-MT model from Tencent.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

  11. RT @witcheer: Hier ist die Rangliste meiner Benchmarks. Modelle, die ich auf meinem kleinen 8GB-RTX getestet habe. Gemma 4 E4B hat mich sehr überrascht, besonders nach dem Testen anderer Modelle, bei denen ich viele Probleme mit Kontext, Geschwindigkeit, Qualität oder gleichzeitiger Nutzung festgestellt habe. Es ist sehr anständig in Kombination mit Pi.

    mehr auf Arint.info

    #Benchmark #Gemma4 #Hardware #KI #Pi #RTX8GB #arint_info

    https://x.com/witcheer/status/2058459544242565375#m

  12. RT @googlegemma: Wir betreten eine neue Ära der On-Device-Automatisierung. ✨ Sehen Sie, wie Gemma 4 E4B ein iOS-Simulator direkt mit Argent navigiert und steuert. Lokale Modelle können komplexe Interaktionen und Software-Navigation autonom bewältigen. Video

    mehr auf Arint.info

    #AutonomousDriving #Gemma4 #iOSAutomation #LocalAI #OnDeviceAutomation #TechInnovation #arint_info

    https://x.com/googlegemma/status/2057570113390551452#m

  13. RT @googlegemma: TRANSLASATION: Wir betreten eine neue Ära der On-Device-Automatisierung. ✨ Sehen Sie, wie Gemma 4 E4B ein iOS-Simulator direkt mit Argent navigiert und steuert. Lokale Modelle können komplexe Interaktionen und Software-Navigation autonom bewältigen. Video

    mehr auf Arint.info

    #Argent #AutonomousNavigation #Gemma4 #iOSAutomation #LocalAI #OnDeviceAutomation #arint_info

    https://x.com/googlegemma/status/2057570113390551452#m

  14. New week, new slides: Run LLMs Locally

    Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

  15. New week, new slides: Run LLMs Locally

    Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

  16. New week, new slides: Run LLMs Locally

    Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

  17. New week, new slides: Run LLMs Locally

    Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

  18. New week, new slides: Run LLMs Locally

    Now including multi-token prediction using Qwen3.6 35B-A3B with Nextn quantization. Also speech recognition using Qwen-3-ASR is now working directly with Llama.cpp and included in the slides.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp

  19. Vor 2½ Monaten habe ich 1000 Token bei #metaGer gekauft und davon sind aktuell noch 822 Token übrig.

    In etwa 90 Tagen habe ich 178 Token verbraucht, was im Schnitt etwa zwei Anfragen täglich entspricht.

    Kommt mir wenig vor. Mir liegen natürlich keine Zahlen vor, aber früher wären es wohl deutlich mehr Suchanfragen gewesen.

    Heute beantwortet ein lokal inferiertes #Gemma4 viele meiner Fragen. Klassische Suchmaschinen verwende ich immer seltener für meine Recherchen.

    Geht euch das auch so?

  20. 🚀 Gemma 4: IA locale e apprendimento linguistico

    Il GDG Basilicata organizza un evento dedicato a come rivoluzionare lo studio delle lingue usando l'IA locale. Al centro dell'incontro: privacy, esecuzione offline e le potenzialità di #Gemma4 per creare strumenti educativi direttamente sul dispositivo.

    🗓️ 5 Giugno 2026
    🕕 18:00 - 19:00 CEST
    🌐 Evento Online

    Info e registrazione: gdg.community.dev/events/detai

    #GDG #GoogleDevs #Gemma4 #MachineLearning #Privacy #AI

  21. 🚀 Gemma 4: IA locale e apprendimento linguistico

    Il GDG Basilicata organizza un evento dedicato a come rivoluzionare lo studio delle lingue usando l'IA locale. Al centro dell'incontro: privacy, esecuzione offline e le potenzialità di #Gemma4 per creare strumenti educativi direttamente sul dispositivo.

    🗓️ 5 Giugno 2026
    🕕 18:00 - 19:00 CEST
    🌐 Evento Online

    Info e registrazione: gdg.community.dev/events/detai

    #GDG #GoogleDevs #Gemma4 #MachineLearning #Privacy #AI

  22. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  23. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  24. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  25. Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

    Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML. Вокруг локальных моделей сложилась странная ситуация. С одной стороны, их постоянно принижают: если это не последняя версия Opus с максимальным режимом размышления, то и пробовать не стоит. С другой — мало кто действительно разбирается, что стоит за запуском локальной модели. Поднять API через llama.cpp — это полдела. А вот как ты её запускаешь, в какой среде, с какими параметрами — эти вещи порой переворачивают результат с ног на голову. Получить плохой результат с локальной моделью на удивление легко. Получить хороший — надо попотеть. При этом локальные модели нужны. Особенно когда начинаются истории про чувствительные данные, закрытые контуры и ситуации, когда облачный API просто не вариант. Я посмотрел множество тестов на YouTube — ни один меня не устроил. Общая канва одинаковая: берут модель побольше, запускают без оглядки на оптимальность и дают задание уровня «напиши сортировку пузырьком». Серьёзно? Я не разработчик и не кодер по профессии, но решил пойти другим путём. Тесты с подковыркой, реальная агентская среда, подбор параметров. И модели я выбрал не «чем больше, тем лучше», а те, которые реально влезают в 16 ГБ видеопамяти домашней видеокарты. Что из этого вышло — дальше по тексту.

    habr.com/ru/articles/1033808/

    #llm #llmмодели #llamacpp #gemma4 #qwen36 #qwen #opencode

  26. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  27. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  28. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  29. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  30. New week, small update: Run LLMs Locally

    Now with a new setup for OpenCode with Qwen 3.6 and Gemma 4, including permissions and thinking variants.

    codeberg.org/thbley/talks/raw/

    #ai #llm #llamacpp #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

  31. How to Replace Siri with a Free Local Model

    Explain the difference between local AI and cloud AI in simple terms

    #LocalAI is processed on your device, keeping all data private.
    #CloudAI is processed on a server and requires internet access.

    app.therundown.ai/guides/how-t

    #LocallyAI #gemma #gemma4 #llm #ai

  32. How to Replace Siri with a Free Local Model

    Explain the difference between local AI and cloud AI in simple terms

    #LocalAI is processed on your device, keeping all data private.
    #CloudAI is processed on a server and requires internet access.

    app.therundown.ai/guides/how-t

    #LocallyAI #gemma #gemma4 #llm #ai

  33. How to Replace Siri with a Free Local Model

    Explain the difference between local AI and cloud AI in simple terms

    #LocalAI is processed on your device, keeping all data private.
    #CloudAI is processed on a server and requires internet access.

    app.therundown.ai/guides/how-t

    #LocallyAI #gemma #gemma4 #llm #ai

  34. How to Replace Siri with a Free Local Model

    Explain the difference between local AI and cloud AI in simple terms

    #LocalAI is processed on your device, keeping all data private.
    #CloudAI is processed on a server and requires internet access.

    app.therundown.ai/guides/how-t

    #LocallyAI #gemma #gemma4 #llm #ai

  35. How to Replace Siri with a Free Local Model

    Explain the difference between local AI and cloud AI in simple terms

    #LocalAI is processed on your device, keeping all data private.
    #CloudAI is processed on a server and requires internet access.

    app.therundown.ai/guides/how-t

    #LocallyAI #gemma #gemma4 #llm #ai

  36. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  37. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  38. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  39. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  40. RT @mr_r0b0t: Wusstest du, dass Qwen3.6 mit nativer MTP ausgeliefert wurde? Ja, dieselbe MTP, für die Google gestern die Unterstützung von Gemma4 freigegeben hat! Multi Token Prediction (MTP) = spekulatives Decoding. Hier ist ein Qwen3.6-Modell, quantisiert auf Q4KM, das MTP über ikllama.cpp unterstützt.

    mehr auf Arint.info

    #AI #Gemma4 #LLM #MTP #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2052022017470120067#m

  41. Google triples Gemma 4 inference speed by implementing multi-token prediction and speculative decoding

    The company introduced 'drafter' models that use speculative decoding to accelerate the Gemma 4 family of open AI models by up to 3x.

    newsnews.ai/article/google-gem